第一章大数据概述
数据管理的三个评判指标
- 数据容量的控制
- 处理的速度
- 数据的种类
大数据的四个特征
- 数据量大
- 数据种类多
- 处理迅速
- 价值密度低
第二章hadoop
随着搜索引擎需要处理的数据越来越大,超大数据集处理运应而生。
Apache的命名来自一支印第安部落,部落已高超的军事素养和超人的忍耐力著称,19世纪后半期对侵占他们领土的入侵者进行了反抗。
GFS论文地址 https://static.googleusercontent.com/media/research.google.com/zh-CN//archive/gfs-sosp2003.pdf
MapReduce论文地址 https://static.googleusercontent.com/media/research.google.com/zh-CN//archive/mapreduce-osdi04.pdf
bigTable论文地址 https://static.googleusercontent.com/media/research.google.com/zh-CN//archive/bigtable-osdi06.pdf
hadoop项目架构
- common各项目共用工具库
- Avro 数据序列化工具,支持多种格式。
- HDFS 分布式文件系统
- HBase 分布式列式数据库
- Pig 查询语言运行时,简化查询操作
- Chukwa 监控分析分布式系统数据
- zookeeper 分布式应用协调服务