
曙海教学优势
本课程面向企事业项目实际需要,秉承二十一年积累的教学品质,大数据分析培训与咨询以项目实现为导向,老师将会与您分享设计的全流程以及工具的综合使用技巧、经验。线上/线下/上门皆可,大数据分析培训与咨询专家,课程可定制,热线:4008699035。
  大批企业和曙海
     建立了良好的合作关系,合作企业30万+。曙海的课程培养了大批受企业欢迎的工程师。曙海的课程在业内有着响亮的知名度。
培训对象:需要使用Hadoop来进行数据分析的数据分析员,商业分析
教学大纲:
Hadoop基础
Pig基础
使用Pig进行简单数据分析
使用Pig处理复杂数据
使用Pig分析处理多数据集
Pig排错和优化
Hive与Impala基础
使用Hive与Impala进行数据分析
数据管理
数据存储与性能
使用Hive与Impala进行数据分析
Impala如何执行查询/扩展及改善性能
使用Hive分析处理文本数据
Hive优化
扩展Hive
如何选取数据分析工具
 
课程大纲:
Hadoop Fundamentals
 
      Hadoop Overview 
 
      Data Storage: HDFS 
 
      Distributed Data Processing: YARN, MapReduce, and Spark 
 
      Data Processing and Analysis: Pig, Hive, and Impala 
 
      Data Integration: Sqoop 
 
      Other Hadoop Data Tools 
 
      Exercise Scenarios Explanation 
 
 
 
Introduction to Pig 
 
      What Is Pig? 
 
      Pig’s Features 
 
      Pig Use Cases 
 
      Interacting with Pig 
 
Basic Data Analysis with Pig 
 
      Pig Latin Syntax 
 
      Loading Data 
 
      Simple Data Types 
 
      Field Definitions 
 
      Data Output 
 
      Viewing the Schema 
 
      Filtering and Sorting Data 
 
      Commonly-Used Functions 
 
Processing Complex Data with Pig 
 
      S torage Formats 
 
      Complex/Nested Data Types 
 
      G rouping 
 
      Built-In Functions for Complex Data 
 
      Iterating Grouped Data 
 
Multi-Dataset Operations with Pig 
 
      Techniques for Combining Data Sets 
 
      Joining Data Sets in Pig 
 
      Set Operations 
 
      Splitting Data Sets 
 
Pig Troubleshooting and Optimization 
 
      Troubleshooting Pig 
 
      Logging 
 
      Using Hadoop’s Web UI 
 
      Data Sampling and Debugging 
 
      Performance Overview