AQE 是一项强大的功能,对于大多数 Spark SQL 查询,特别是大数据量和复杂查询,开启 AQE 往往能带来显著的性能提升。然而,在特定情况下,如数据量较小或对查询性能的可预测性有严格要求时,可能需要仔细考虑是否启用 AQE。
centos7 安装 tesseract
默认安装的版本很低,只有3.X,识别效果不好
CentOS 7 使用 Yum 添加EPEL仓库:Tesseract可能不在CentOS默认的仓库中,但它可以在EPEL(Extra Packages for Enterprise Linux)仓库中找到。首先,你需要添加EPEL仓库:
sudo[......]
解压未知压缩文件的方法
查看文件的前几个字节来尝试确定其压缩类型。在 Python 中,你可以用以下方式读取并打印文件的开始几个字节:
with open(file_path, 'rb') as f:
magic_number = f.read(4) # 读取前4个字节
print(magic_nu[......]
spark 对比于 mr
Apache Spark 比 MapReduce 优势主要在于其设计和执行模型。
1. **内存计算(In-Memory Processing)**:
- Spark 专门设计用于内存计算,可以对数据进行缓存和持久化到内存中,这样就可以非常快速地访问这些数据。这对于迭代算法(比如机器学习[......]
python – 删除重复文件
磁盘不足,需要清除重复文件,怕误删只清除文件名重复且md5一样的文件
import os
import hashlib
import shutil
def traverse_dir(path,endswith='.xlsx'):
'''
返回一个重复文件字典
{ '文[......]
字符串转换为数字
presto
with t as (select '-3.22e3' col_str
union all select '3.22e3'
union all select '7968'
union all select '-7968'
union all select '79689.789'
union[......]
时间计算
hive Error: java.lang.RuntimeException: org.apache.hadoop.hive.ql.metadata.HiveException
调度程序执行正常,查询报错如下
Error: java.lang.RuntimeException: org.apache.hadoop.hive.ql.metadata.HiveException: Hive Runtime Error while processing writable {[……]
hive insert模式分析
hive写入数据有2种模式,一种是insert into,一种是insert overwrite
参考资料:https://cwiki.apache.org/confluence/display/Hive/LanguageManual+DML#LanguageManualDML-Inserti[……]
clickhouse检索
资料文档阅读:
官方主页: https://clickhouse.tech/
官方文档:https://clickhouse.tech/docs/en/
clickhouse安装:
参考资料:https://clickhouse.tech/#quick-start
- Ub[……]