redshift读数据有乱码

图片.png

如图,first_name是要处理的字段,如何写正则表达式或者通过其他方法,将里面的乱码删掉(保留中文英文和常用标点)。后三列都是我自己的尝试,都失败了。cleaned_column这个字段比较接近结果但是还是有乱码。

我的代码如下:

SELECT

employee_id,

first_name,

REGEXP_REPLACE(first_name, '[^a-zA-Z0-9\\u4e00-\\u9fa5 .,!?;:-()℃]', '' ) as cleaned_column, -- 失败

REGEXP_REPLACE(first_name, '[^a-zA-Z0-9\\u4e00-\\u9fa50-9 .,!?;:-()℃]', '') ,-- 失败

--REGEXP_REPLACE(first_name, '[^\u4e00-\u9fff\p{P}\p{S}\p{N}\p{L}]', '') ,

--REGEXP_REPLACE(first_name, '[\u4e00-\u9fff\p{P}\p{S}\p{N}\p{L}]', '') ,

-- REGEXP_REPLACE(first_name, '[^\u4e00-\u9fff\d\s\w\b]', '') ,

--REGEXP_REPLACE(first_name, '[\U+4E00-U+9FFF\]', '')

REGEXP_REPLACE(first_name, '[^a-zA-Z0-9 ;:\\u4e00-\\u9fa50-9]', '') -- 要里面的   ;:是#  -是中文

FROM public.t_03;

SQL NycA8Jih 发布于 2025-10-21 17:32
1min目标场景问卷 立即参与
回答问题
悬赏:3 F币 + 添加悬赏
提示:增加悬赏、完善问题、追问等操作,可使您的问题被置顶,并向所有关注者发送通知
共1回答
最佳回答
0
Z4u3z1Lv6专家互助
发布于2025-10-21 17:39
  • 2关注人数
  • 17浏览人数
  • 最后回答于:2025-10-21 17:39
    请选择关闭问题的原因
    确定 取消
    返回顶部