Latest Posts

spark在数据仓库构建中的应用以及重点事项

Table of Contents 1. 数据仓库建设 1.1. 如何解决多数据源(不同客户)的问题? 1.1.1. 问题1:customer可能会有不同类型的数据源: 1.1.2. 问题2:多数据集之间需要join 1.1.3. 传统解决办法: 1.1.4. 传统方法面临的问题: 1.2. Spa...

Python爬虫工具列表

Table of Contents 1. 网络 1.1. 通用 2. 网络爬虫框架 2.1. 功能齐全的爬虫 3. HTML/XML解析器 3.1. 通用 4. 文本处理 4.1. 通用 4.2. 字符编码 4.3. Slug化 4.4. 通用解析器 4.5. 人的名字 4.6. 电话号...

sqoop常用导数据命令集合

Table of Contents 1. 列出mysql数据库中的所有数据库 2. 连接mysql并列出数据库中的表 3. 将关系型数据的表结构复制到hive中 4. 将数据从关系数据库导入文件到hive表中 5. 将hive中的表数据导入到mysql数据库表中 6. 将数据从关系数据库导入文件到hive表...

the-7-conferences-data-scientists-wont-miss

Table of Contents 1. Strata 2. Predictive Analytics World 3. useR! 4. IBM Insights 5. Joint Statistical Meetings 6. IEEE International Conference on Data ...