Hive是建立在Hadoop文件系统上的数据仓库,它提供了一系列工具,能够对存储在HDFS中的数据进行数据提取、转换和加载(ETL),这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的工具。查看全文>>
Tesseract是一个开源的OCR库,是目前公认的最优秀、最精确的开源OCR系统,具有精准度高、灵活性高等特点。它不仅可以通过训练识别出任何字体(只要字体的风格保持不变即可),而且可以识别出任何Unicode字符。查看全文>>
Tesseraet是一个命令行工具,安装后只能通过tsseraet命令在Python的外部运行,而不能通过import语句引人使用。为了解决上述问题,Python 提供了支持Tssraec-OCR引擎的Python版本的库pytesseract。查看全文>>
Hadoop有三种运行模式:独立(本地)运行模式,伪分布式模式,和完全分布式模式。三种模式的yingy9ong场景不同,下面我们就来详细看一下。查看全文>>
requests是基于Python开发的HTTP库,与urllib标准库相比,它不仅使用方便,而且能节约大量的工作。实际上,requests是在urllib的基础上进行了高度的封装查看全文>>
有些时候我们需要获取某个文件夹下的所有文件的名称,手工操作效率低下而且容易出错,使用Python如何实现这个功能呢?查看全文>>