spark AQE 参数

AQE 是一项强大的功能,对于大多数 Spark SQL 查询,特别是大数据量和复杂查询,开启 AQE 往往能带来显著的性能提升。然而,在特定情况下,如数据量较小或对查询性能的可预测性有严格要求时,可能需要仔细考虑是否启用 AQE。

简单来说是可提高 Spark[……]

Read more

centos7 安装 tesseract

默认安装的版本很低,只有3.X,识别效果不好

CentOS 7 使用 Yum 添加EPEL仓库:Tesseract可能不在CentOS默认的仓库中,但它可以在EPEL(Extra Packages for Enterprise Linux)仓库中找到。首先,你需要添加EPEL仓库:

sudo[......]

Read more

解压未知压缩文件的方法

查看文件的前几个字节来尝试确定其压缩类型。在 Python 中,你可以用以下方式读取并打印文件的开始几个字节:

with open(file_path, 'rb') as f:
    magic_number = f.read(4)  # 读取前4个字节
    print(magic_nu[......]

Read more

spark 对比于 mr

Apache Spark 比 MapReduce 优势主要在于其设计和执行模型。

1. **内存计算(In-Memory Processing)**:
   - Spark 专门设计用于内存计算,可以对数据进行缓存和持久化到内存中,这样就可以非常快速地访问这些数据。这对于迭代算法(比如机器学习[......]

Read more

python – 删除重复文件

磁盘不足,需要清除重复文件,怕误删只清除文件名重复且md5一样的文件

import os
import hashlib
import shutil

def traverse_dir(path,endswith='.xlsx'):
    '''
    返回一个重复文件字典
    { '文[......]

Read more

hive insert模式分析

hive写入数据有2种模式,一种是insert into,一种是insert overwrite

参考资料:https://cwiki.apache.org/confluence/display/Hive/LanguageManual+DML#LanguageManualDML-Inserti[……]

Read more