spark AQE 参数

AQE 是一项强大的功能，对于大多数 Spark SQL 查询，特别是大数据量和复杂查询，开启 AQE 往往能带来显著的性能提升。然而，在特定情况下，如数据量较小或对查询性能的可预测性有严格要求时，可能需要仔细考虑是否启用 AQE。

简单来说是可提高 Spark[……]

centos7 安装 tesseract

默认安装的版本很低，只有3.X，识别效果不好

CentOS 7 使用 Yum 添加EPEL仓库：Tesseract可能不在CentOS默认的仓库中，但它可以在EPEL（Extra Packages for Enterprise Linux）仓库中找到。首先，你需要添加EPEL仓库：

sudo[......]

解压未知压缩文件的方法

查看文件的前几个字节来尝试确定其压缩类型。在 Python 中，你可以用以下方式读取并打印文件的开始几个字节：

with open(file_path, 'rb') as f:
    magic_number = f.read(4)  # 读取前4个字节
    print(magic_nu[......]

spark 对比于 mr

Apache Spark 比 MapReduce 优势主要在于其设计和执行模型。

1. **内存计算（In-Memory Processing）**:
   - Spark 专门设计用于内存计算，可以对数据进行缓存和持久化到内存中，这样就可以非常快速地访问这些数据。这对于迭代算法（比如机器学习[......]

python – 删除重复文件

磁盘不足，需要清除重复文件，怕误删只清除文件名重复且md5一样的文件

import os
import hashlib
import shutil

def traverse_dir(path,endswith='.xlsx'):
    '''
    返回一个重复文件字典
    { '文[......]

字符串转换为数字

presto

with t as (select '-3.22e3' col_str union all select '3.22e3' union all select '7968' union all select '-7968' union all select '79689.789' union[......]

presto ↗

日期+1天

date_format(date_parse( '2023-01-05' , '%Y-%m-%d') + interval '1' day, '%Y-%m-%d')

月份+1月

date_format(date_parse( '[......]

hive Error: java.lang.RuntimeException: org.apache.hadoop.hive.ql.metadata.HiveException

调度程序执行正常，查询报错如下

Error: java.lang.RuntimeException: org.apache.hadoop.hive.ql.metadata.HiveException: Hive Runtime Error while processing writable {[……]

hive insert模式分析

hive写入数据有2种模式，一种是insert into，一种是insert overwrite

参考资料：https://cwiki.apache.org/confluence/display/Hive/LanguageManual+DML#LanguageManualDML-Inserti[……]

clickhouse检索

资料文档阅读：

官方主页： https://clickhouse.tech/
官方文档：https://clickhouse.tech/docs/en/

clickhouse安装：

参考资料：https://clickhouse.tech/#quick-start

Ub[……]

要我带你去吗，这个小镇，愿望实现的地方。

热爱生活快乐工作