当前位置: 首页 > news >正文

做视频网站服务器要求关键词列表

做视频网站服务器要求,关键词列表,微信企业号可以做微网站吗,分类 wordpressPython 实现读取pdf文件简单示例。 安装命令 需要安装操作pdf的三方类库,命令如下: pip install pdfminer3K 安装过程如下: 引入类库 需要引入很多的类库。 示例如下: import sys import importlib importlib.reload(sys)fr…

Python 实现读取pdf文件简单示例。

安装命令

需要安装操作pdf的三方类库,命令如下:

pip install pdfminer3K

安装过程如下:

引入类库

需要引入很多的类库。

示例如下:

import sys
import importlib
importlib.reload(sys)from pdfminer.pdfparser import PDFParser, PDFDocument
from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.converter import  PDFPageAggregator
from pdfminer.layout import LTTextBoxHorizontal, LAParams
from pdfminer.pdfinterp import PDFTextExtractionNotAllowed

 

读取pdf实现

实现步骤为:先通过二进制方式打开测试pdf文档,创建pdf文档解析测试文档内容,

最后读取文件内容,保存到另一个文件中。

示例如下:

import sys
import importlibimportlib.reload(sys)from pdfminer.pdfparser import PDFParser, PDFDocument
from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.converter import PDFPageAggregator
from pdfminer.layout import LTTextBoxHorizontal, LAParams
from pdfminer.pdfinterp import PDFTextExtractionNotAllowed
import osdef read_pdf(path, toPath):# 以二进制方式打开pdf文件f = open(path, 'rb')# 创建一个pdf文档分析器parser = PDFParser(f)# 创建pdf文档pdfFile = PDFDocument()# 链接分析器与文档对象parser.set_document(pdfFile)pdfFile.set_parser(parser)# 提供初始化密码pdfFile.initialize()# 检测文档是否提供txt转换if not pdfFile.is_extractable:raise PDFTextExtractionNotAllowedelse:# 解析数据# 数据管理器manager = PDFResourceManager()# 创建一个PDF设备对象laparams = LAParams()device = PDFPageAggregator(manager, laparams=laparams)# 解释器对象interpreter = PDFPageInterpreter(manager, device)for page in pdfFile.get_pages():interpreter.process_page(page)layout = device.get_result()for x in layout:if isinstance(x, LTTextBoxHorizontal):with open(toPath, 'a', encoding='utf-8') as f:print(x.get_text())f.write(x.get_text() + "\n")path = os.path.join(os.getcwd(), 'test_1.pdf')
toPath = os.path.join(os.getcwd(), 'test_2.txt')
read_pdf(path, toPath)

注意:无法读取中文,貌似需要加载中文字体。还有就是在写入pdf文件,格式不对无法打开暂时没找到原因。

总结

本篇只是使用Python 实现读取pdf文件简单示例,因为时间关系没有做深入的扩展,等之后有时间再做补充。

http://www.wooajung.com/news/27633.html

相关文章:

  • 定制软件开发公司seo关键词优化报价
  • 未备案网站个人网站规划书模板
  • 德国搜索引擎seowhy
  • 怎么样做网站或产品推广无锡网络优化推广公司
  • 大型企业网站制作网络营销的实现方式有哪些
  • wordpress 标签中文百度刷排名seo软件
  • 网站导流应该怎么做app开发定制
  • 三星企业网站建设ppt汕头百度关键词推广
  • 长春做网站seo的朝阳网站建设
  • 动态网站开发是什么书微信运营方案
  • 网站开发技术有什么软件百度一下百度搜索入口
  • 佛山html5网站建设培训网站官网
  • 有谁做网站2023网站seo
  • 想注册一个公司怎么注册优化网站怎么真实点击
  • 在哪人网站要以接it项目做免费的网页制作软件
  • vs怎么添加做网站seo l
  • 广东移动手机营业厅网站短视频seo排名
  • photoshop网站模板设计教程关键词排名查询软件
  • 网站会员页面做httpssemiconductor
  • 宝安附近公司做网站建设多少钱查收录
  • 域名注册服务原则上实行什么百度seo优化公司
  • 中国房地产未来走势谷歌优化师
  • wordpress多站点支付插件泰州seo网站推广
  • 内蒙古做网站的公司百度爱采购竞价推广
  • 淄博政府网站建设公司怎么在百度上推广产品
  • 电子商务网站建设的目标网站seo公司哪家好
  • 1核1g服务器做网站企业网站设计
  • 众筹网站建设seo教程下载
  • 动漫做3d游戏下载网站有哪些百度推广靠谱吗
  • 如何把网站程序做授权网址访问怎样去推广自己的网店