redshift读数据有乱码

图片.png

如图，first_name是要处理的字段，如何写正则表达式或者通过其他方法，将里面的乱码删掉（保留中文英文和常用标点）。后三列都是我自己的尝试，都失败了。cleaned_column这个字段比较接近结果但是还是有乱码。

我的代码如下：

SELECT

employee_id,

first_name,

REGEXP_REPLACE(first_name, '[^a-zA-Z0-9\\u4e00-\\u9fa5 .,!?;:-（）℃]', '' ) as cleaned_column, -- 失败

REGEXP_REPLACE(first_name, '[^a-zA-Z0-9\\u4e00-\\u9fa50-9 .,!?;:-（）℃]', '') ,-- 失败

--REGEXP_REPLACE(first_name, '[^\u4e00-\u9fff\p{P}\p{S}\p{N}\p{L}]', '') ,

--REGEXP_REPLACE(first_name, '[\u4e00-\u9fff\p{P}\p{S}\p{N}\p{L}]', '') ,

-- REGEXP_REPLACE(first_name, '[^\u4e00-\u9fff\d\s\w\b]', '') ,

--REGEXP_REPLACE(first_name, '[\U+4E00-U+9FFF\]', '')

REGEXP_REPLACE(first_name, '[^a-zA-Z0-9 ;:\\u4e00-\\u9fa50-9]', '') -- 要里面的 ;:是# -是中文

FROM public.t_03;

SQL NycA8Jih 发布于 2025-10-21 17:32

回答问题关注问题

悬赏：3 F币 + 添加悬赏

提示：增加悬赏、完善问题、追问等操作，可使您的问题被置顶，并向所有关注者发送通知

共1回答

Z4u3z1Lv6专家互助
发布于2025-10-21 17:39

2关注人数

17浏览人数

最后回答于：2025-10-21 17:39

活动推荐更多

热门课程更多

确定取消