pdf如何用python读取？

321次观看

标签：如何用 pdf python

老师回答

python中可以使用pdfminer库来读取PDF文件中的内容。

安装命令：

pip install pdfminer

pip install pdfminer3k

python中读取PDF文件代码：

from urllib.request import urlopen
from pdfminer.pdfinterp import PDFResourceManager, process_pdf
from pdfminer.converter import TextConverter
from pdfminer.layout import LAParams
from io import StringIO
from io import open

def readPDF(pdfFile):
    rsrcmgr = PDFResourceManager()
    retstr = StringIO()
    laparams = LAParams()
    device = TextConverter(rsrcmgr, retstr, laparams=laparams)

    process_pdf(rsrcmgr, device, pdfFile)
    device.close()

    content = retstr.getvalue()
    retstr.close()
    return content

pdfFile = urlopen("http://pythonscraping.com/pages/warandpeace/chapter1.pdf")
outputString = readPDF(pdfFile)
print(outputString)
pdfFile.close()

解析pdf文件用到的类：

PDFParser：从一个文件中获取数据

PDFDocument：保存获取的数据，和PDFParser是相互关联的

PDFPageInterpreter处理页面内容

PDFDevice将其翻译成你需要的格式

PDFResourceManager用于存储共享资源，如字体或图像。

更多Python知识请关注Python自学网

©本文版权归环球青藤所有，任何形式转载请联系我们。

免费直播

精选课程

相关推荐

python中如何使用zip函数将列表合并为字典？

宋老师 Python编程

1、zip() 函数

用于将可迭代的对象作为参数，将对象中对应的元素打包成一个个元组，然后返回由这些元组组成的列表。

2、语法

zip([iterable, ...])

3、返回值

返回由元组组成的列表；

如果各个迭代器的元素个数不一致，则返回列表长度与最短的对象相同，利用 * 号操作符，可以将元组解压为列表。

4、使用zip函数, 把key和value的list组合在一起, 再转成字典(dict)。

实例

>>> keys= ['id', 'name', 'pwd']
>>> values = [[2, '123', '567'],[3, '456', '899']]
# 先遍历rows里面的值，然后在用zip反转
>>> a = [dict(zip(keys,values)) for row in values] if values else None
>>> print(a)
[{'name': [3, '456', '899'], 'id': [2, '123', '567']}, {'name': [3, '456', '899'], 'id': [2, '123', '567']}]

python中字典遍历时如何同时获得键和值？

许老师 Python编程

1、item()方法

把字典中每对key和value组成一个元组，并把这些元组放在列表中返回。

在字典中进行遍历的时候可以采用item()方法将字典中的键值对同时遍历出来。

2、语法

dict.items()

3、返回值

返回可遍历的(键, 值) 元组数组。

4、使用实例

字典遍历同时获得键和值

>>> knights = {'gallahad': 'the pure', 'robin': 'the brave'}
>>> for k, v in knights.items():
...     print(k, v)
...
gallahad the pure
robin the brave

如何用python中的clear()方法实现删除字典元素？

宋老师 Python编程

python中，有各种各样删除的方法，每一种删除方法可以实现不同的删除效果。在对于python字典的操作过程中，如果面对着大量的错误字典元素，我们就要删除所有的元素，一个个删除十分麻烦。本文小编就向大家介绍python中实现删除字典所有项的clear()方法。

1、clear()方法

清除字典中所有的项，用于删除字典内所有元素。

这个是原地操作（类似于list.sort），所以无返回值（或返回None）

2、语法

D.clear()

3、使用实例

使用clear()方法实现一次性删除所有字典元素

d = {'a':1,'b':2,'c':3}
print(d)
# 删除所有元素，允许d为{}
d.clear()
print(d)

以上就是python中用clear()方法实现删除字典所有元素的原理和实例，希望能对你有所帮助哦~