《高校大数据实训课程系列案例之电影推荐系统(Scala版)》教材官网
厦门大学 林子雨 编著
全国高校大数据教学名师精品力作
资源全面,提供全方位一站式在线服务
教材已经由人民邮电出版社出版发行
ISBN:978-7-115-50306-0 定价:45元
本页面内容导航
扫一扫访问本网页
教材简介
图书ISBN:978-7-115-50306-0 人民邮电出版社
本书适合用于高校大数据实训课程的教学,本书中的具体案例,将有助于学生综合运用大数据课程知识以及各种工具软件,实现数据分析全流程操作。
本书作为大数据实训课程教材,和大数据入门教材《大数据技术原理与应用》以及大数据进阶教材《Spark编程基础(Scala版)》一起,初步形成了完整的大数据教材体系,可以作为高等院校计算机、软件工程、信息管理、数据科学与大数据技术等相关专业的大数据实训课程教材,也可供相关技术人员参考。
案例概述
本案例旨在帮助学生形成以下几个方面的能力:
(1)掌握Linux操作系统的安装和使用;(2)掌握Hadoop的安装和使用方法;(3)掌握关系数据库的原理以及MySQL数据库的安装和使用方法;(4)掌握使用IntelliJ IDEA开发Scala程序的方法;(5)掌握ETL工具Kettle的安装和使用方法;(6)掌握Spark程序(包括Spark SQL程序和Spark MLlib程序)开发方法;(7)掌握推荐系统的原理;(8)掌握基于协同过滤的推荐算法的原理及其具体使用方法;(9)掌握数据挖掘的步骤和方法;(10)掌握基于js的网页开发方法;(11)掌握利用网页可视化呈现数据分析结果的方法。
本案例适用于以下对象:(1)高校(本科和高职)教师;(2)高校(本科和高职)学生;(3)大数据学习者。
本案例可以作为高校大数据实训课程的实践教学案例,建议安排80学时左右完成本案例。
本案例是对大数据课程知识体系的综合实践,需要案例使用者具备如下预备知识:(1)学习过大数据相关课程,了解大数据相关技术的基本概念与原理,掌握基础的Hadoop使用方法和Spark编程方法;(2)由于本案例全部在Linux操作系统下完成实验,因此,需要使用者了解Linux操作系统的基本原理和使用方法;(3)了解关系数据库的原理,掌握基本的SQL语句编写方法;(4)了解HTML语言和网页开发的基本方法;(5)了解Scala编程语言以及使用Scala语言编写Spark程序的方法。
本案例可以在单机、伪分布式、分布式集群环境下完成实验。对于Hadoop而言,三种模式的区别在于:(1)单机模式:只在一台机器上运行,存储是采用本地文件系统,没有采用分布式文件系统HDFS;(2)伪分布式模式:存储采用分布式文件系统HDFS,但是,HDFS的名称节点和数据节点都在同一台机器上;(3)分布式模式:存储采用分布式文件系统HDFS,而且,HDFS的名称节点和数据节点位于不同机器上。
需要说明的是,高校采用真正分布式集群环境进行实验的必要性不强,很多高校也不具备多人同时开展分布式编程实践的大数据实验平台,因此,建议在伪分布式环境下完成本案例。
在使用伪分布式模式进行安装配置时,如果采用在Windows系统上安装Linux虚拟机的方式,则对计算机的配置要求较高,建议的计算机硬件配置为:50GB以上硬盘和8GB以上内存。如果采用双操作系统方式,开机启动后直接进入Linux系统,则使用普通的台式机或者笔记本电脑,都可以顺利完成本案例。
教材官网提供了全部软件的下载,要严格按照相应版本安装系统和软件,否则,可能会引起一些不必要的意外错误。
图 电影推荐系统的数据分析整体过程
下载专区
表1 “下载专区”目录及其内容概览
实训样板工程
根据实验室打造“高校大数据实训课程样板工程”的实践经验,全面介绍高校大数据实训课程的教学方法和课程资源,包括课程设计目的要求、选题原则、设计内容、教学方法、授课过程、资源平台、教学管理平台等,为全国高校更好开展大数据实训课程建设提供参考。
课程亮点:高校大数据教学名师和企业大数据工程师联合指导、“教学过程一体化管理平台”和“高校大数据课程公共服务平台”全程助力、为高校量身定制的大数据实训案例教材、围绕工程教育认证要求制定课程内容
拓展阅读
大数据学习路线图
大数据课程公共服务平台
致谢
本书由林子雨执笔。在撰写过程中,厦门大学计算机科学系硕士研究生魏亮、曾冠华、程璐、林哲、郑宛玉、陈杰祥等同学以及厦门大学计算机科学系2015级本科生张庆晓和罗景亮同学等做了大量辅助性工作,在此,向这些同学的辛勤工作表示衷心的感谢。衷心感谢夏小云老师在教材校对工作中的辛勤付出!