大数据处理技术导论Task1笔记

第一章大数据概述

数据管理的三个评判指标

  1. 数据容量的控制
  2. 处理的速度
  3. 数据的种类

大数据的四个特征

  1. 数据量大
  2. 数据种类多
  3. 处理迅速
  4. 价值密度低

第二章hadoop

随着搜索引擎需要处理的数据越来越大,超大数据集处理运应而生。
Apache的命名来自一支印第安部落,部落已高超的军事素养和超人的忍耐力著称,19世纪后半期对侵占他们领土的入侵者进行了反抗。
GFS论文地址 https://static.googleusercontent.com/media/research.google.com/zh-CN//archive/gfs-sosp2003.pdf
MapReduce论文地址 https://static.googleusercontent.com/media/research.google.com/zh-CN//archive/mapreduce-osdi04.pdf
bigTable论文地址 https://static.googleusercontent.com/media/research.google.com/zh-CN//archive/bigtable-osdi06.pdf
hadoop项目架构

  • common各项目共用工具库
  • Avro 数据序列化工具,支持多种格式。
  • HDFS 分布式文件系统
  • HBase 分布式列式数据库
  • Pig 查询语言运行时,简化查询操作
  • Chukwa 监控分析分布式系统数据
  • zookeeper 分布式应用协调服务
浙ICP备19012682号