如图,first_name是要处理的字段,如何写正则表达式或者通过其他方法,将里面的乱码删掉(保留中文英文和常用标点)。后三列都是我自己的尝试,都失败了。cleaned_column这个字段比较接近结果但是还是有乱码。 我的代码如下: SELECT employee_id, first_name, REGEXP_REPLACE(first_name, '[^a-zA-Z0-9\\u4e00-\\u9fa5 .,!?;:-()℃]', '' ) as cleaned_column, -- 失败 REGEXP_REPLACE(first_name, '[^a-zA-Z0-9\\u4e00-\\u9fa50-9 .,!?;:-()℃]', '') ,-- 失败 --REGEXP_REPLACE(first_name, '[^\u4e00-\u9fff\p{P}\p{S}\p{N}\p{L}]', '') , --REGEXP_REPLACE(first_name, '[\u4e00-\u9fff\p{P}\p{S}\p{N}\p{L}]', '') , -- REGEXP_REPLACE(first_name, '[^\u4e00-\u9fff\d\s\w\b]', '') , --REGEXP_REPLACE(first_name, '[\U+4E00-U+9FFF\]', '') REGEXP_REPLACE(first_name, '[^a-zA-Z0-9 ;:\\u4e00-\\u9fa50-9]', '') -- 要里面的 ;:是# -是中文 FROM public.t_03; |
立即参与
|
0
|
|
|||
