在pdf转为文本的时候,经常会多出空格,影响数据观感,因此需要去掉文本中多余的空格,而文本中的英文之间的正常空格需要保留,输入输出如下:
input:我今天 赚了 10 个亿,老百姓very happy。
output:我今天赚了10个亿,老百姓very happy。
代码
def clean_space(text): """" 处理多余的空格 """ match_regex = re.compile(u'[\u4e00-\u9fa5。\.,,::《》、\(\)()]{1} +(" +", " ", s)import re s = " info has been found (+/- 100 pages, and 4.5 mb of .pdf files) now i have to wait untill our team leader has processed it and learns html. " re.sub(" +", " ", s)' '.join(s.split())
s = " info has been found (+/- 100 pages, and 4.5 mb of .pdf files) now i have to wait untill our team leader has processed it and learns html. " s = ' '.join(s.split()) s更多关于python使用正则表达式去除多余空格方法请查看下面的相关链接
最新资源
- 群星《新说唱2024 第12期 (下)》[FLAC/分轨][50
- 李常超 (Lao乾妈)《天生江湖》[320K/MP3][168.8
- 李常超 (Lao乾妈)《天生江湖》[FLAC/分轨][633.
- 群星《雨果发烧碟二十》UPMAGCD2024[WAV+CUE]
- 刘德丽《赤的疑惑》限量1:1黄金母盘直刻[低速原
- 柏菲·珞叔作品集《金色大厅2》限量开盘母带ORMC
- Gareth.T《sad songs(Explicit)》[320K/MP3][29
- Gareth.T《sad songs(Explicit)》[FLAC/分轨][1
- 证声音乐图书馆《海风摇曳·盛夏爵士曲》[320K/M
- 龚玥《金装龚玥HQCD》头版限量[WAV分轨]