python实现从pdf文件中提取文本,并自动翻译的方法

站长资源 2024/10/8 佚名

2 0 1

黑松山资源网 Design By www.paidiu.com

针对Python 3.5.2 测试

首先安装两个包：

$ pip install googletrans

$ pip install pdfminer3k

googletrans会提供一个命令translate，这个命令会调用google translate api执行自动翻译：

pdfminer3k会提供一个工具脚本pdf2txt.py：

$ pdf2txt.py xxx.pdf

从stackoverflow搜索到可以去除页眉和页脚的命令(强烈推荐)：

使用Ubuntu提供的pdftotext工具：

$ pdftotext -y 50 -H 650 -W 1000 -nopgbrk sva.pdf

$ pdftotext -f 147 -l 166 -y 50 -H 650 -W 1000 -nopgbrk sva.pdf

谷歌翻译并不能识别段落或者整句，如果一个整句中出现换行符，会发现翻译就不完整了，以网页版谷歌翻译测试：

因此需要将pdf转换好的文本文件进行拼接，借用linux args 命令，实现此功能，将整个文件的换行符全部去掉。

但是问题又出现了，整个文件变成一行，我们的段落结构都消失了，那么我们需要手动添加delimiter，设置为一个特殊字符@。

执行如下命令：

cat trans_src.txt |xargs |xargs -0 -d '@' -i{} translate -d zh-cn {} |tee trans_dst.txt

cat sva_src_1to2.txt |xargs |xargs -0 -d '&' -i{} translate -d zh-cn {} |xargs -d'\n' -n4 | awk -F'zh-cn' '{print $2}' | awk -F'[][]' '{print $2}' | tee sva_dst_1to2.txt

将翻译后的文本重定向到一个文件，然后对文件进行简单的后处理，就可以了。

以上这篇python实现从pdf文件中提取文本,并自动翻译的方法就是小编分享给大家的全部内容了，希望能给大家一个参考，也希望大家多多支持。

python,pdf,提取文本,翻译

黑松山资源网 Design By www.paidiu.com

广告合作：本站广告合作请联系QQ：858582 申请时备注：广告合作（否则不回）
免责声明：本站资源来自互联网收集,仅供用于学习和交流,请遵循相关法律法规,本站一切资源不代表本站立场,如有侵权、后门、不妥请联系本站删除！

黑松山资源网 Design By www.paidiu.com

评论“python实现从pdf文件中提取文本,并自动翻译的方法”

暂无评论...

www.paidiu.com 黑松山资源网

39,976影音资源

44,792技术资源

21,817软件资源

651,128站长资源

最新文章

群星.2024-繁花电视剧原声带3CD【环球】【W

2024/10/8

江希文.1994-伝说少女（饿狼伝说动画原声大碟

2024/10/8

洪荣宏.2010-上爱的人【华特】【WAV+CUE】

2024/10/8

《大牌国语情歌经典再现深情对唱 2CD》[W

2024/10/8

《陈百强粉红色的一生精选 3CD》[FLAC/分轨

2024/10/8

一句话新闻

一口气升级7个大模型SaaS应用，百度智能云：突出一个“开箱即用” - 2024/10/8

这一波大模型产业落地浪潮里，不少企业其实处在 “干瞪眼“的状态。

一种情况是，很多大模型产品看得见却摸不着，在台上一个个遥遥领先——今天Sora技精四座，明天英伟达的机器人又赢得满堂彩，可是到了台下一问：啥时候能用上啊？答曰：遥遥无期。

另一种情况是，企业想用上大模型，却又难免瞻前顾后——既要考虑场景融合，又得兼顾安全性，还要考虑打通现有系统，再加上各种部署成本和繁琐的采购流程……最后只能拂袖：罢了，再等等吧。

稳了！魔兽国服回归的3条重磅消息！官宣时间再确认！

昨天有一位朋友在大神群里分享，自己亚服账号被封号之后居然弹出了国服的封号信息对话框。

这里面让他访问的是一个国服的战网网址，com.cn和后面的zh都非常明白地表明这就是国服战网。
而他在复制这个网址并且进行登录之后，确实是网易的网址，也就是我们熟悉的停服之后国服发布的暴雪游戏产品运营到期开放退款的说明。这是一件比较奇怪的事情，因为以前都没有出现这样的情况，现在突然提示跳转到国服战网的网址，是不是说明了简体中文客户端已经开始进行更新了呢？

更新日志

2024年10月08日

python实现从pdf文件中提取文本,并自动翻译的方法

在python中只选取列表中某一纵列的方法

手把手教你如何安装Pycharm(详细图文教程)

评论“python实现从pdf文件中提取文本,并自动翻译的方法”

稳了！魔兽国服回归的3条重磅消息！官宣时间再确认！

更新日志

友情链接