问答详情

python爬虫需要哪些

359次观看
标签: 爬虫 python
老师回答

爬虫是一种能够快速采集信息的工具,不单是Python可以写爬虫,其他语言也可以写爬虫。用Python写爬虫,需要用到以下这些知识

1、HTML,了解网页的结构,内容等,帮助后续的数据爬取。
2、Python,可以去网上找一些教学视频,教学博客等等,去看一下,然后有基础了之后还可以找一些晋升的视频,再打打基础。
3、TCP/IP协议,HTTP协议,了解在网络请求和网络传输上的基本原理,帮助今后写爬虫的时候理解爬虫的逻辑。

其次就是要梳理一下爬虫的思路,简单的说,就是你想要抓取一个网站的内容时,需要怎么一步步做好,需要现有一个大的整体的架构,

才能进一步做好接下来的工作。当用户浏览网页时,会看到很多图片,点击网址的时候看到的图片,是经过用户输入网址-DNS服务器-服

务器主机-服务器请求-服务器解析-发送浏览器HTML、JS、CSS-浏览器解析-解析图片这一长段的服务器运作来完成的,而爬虫就是需要

爬取有HTML代码构成的网页,然后获取图片和文字。

最后,就是要使用合适的工具,比如说想要做好测试,那么就需要相应的环境配置,同样的道理,想要做好python,也需要好用的工

具:

1、Notepad++,简单,但是提示功能不强。
2、PyCharm,用于一般IDE具备的功能,比如,调试、语法高亮、代码跳转、等等,同时可用于Django开发,支持Google App Engine、
PyCharm,支持IronPython。
3、芝麻HTTP代理,用于提供代理ip的代理服务器

免费直播

    精选课程
    相关推荐
    python程序设计主要学什么?
    魏老师 Python编程

    1、Python语言基础

    学Python最基础知识,如Python3、数据类字符串、函数、类、文件操作阶段课程结束后,学员需要完成Pygame实战飞机大战、2048等项目。

    2、Python语言高级

    主要学习Python库、正则表达式、进程线程、爬虫、遍历以及MySQL数据库。

    3、Python、web开发

    主要学习HTML、CSS、JavaScript、jQuery等前端知识,掌握python三大后端框架(Django、 Flask以及Tornado)。需要完成网页界面设计实战;能独立开发网站。

    4、Linux基础

    主要学习Linux相关的各种命令,如文件处理命令、压缩解压命令、权限管理以及Linux Shell开发等。

    5、Linux运维自动化开发

    主要学习Python开发Linux运维、Linux运维报警工具开发、Linux运维报警安全审计开发、Linux业务质量报表工具开发、Kali安全检测工具检测以及Kali 密码破解实战。

    6、Python爬虫

    主要学习python爬虫技术,掌握多线程爬虫技术,分布式爬虫技术。

    7、Python数据分析和大数据

    主要学习numpy数据处理、pandas数据分析、matplotlib数据可视化、scipy数据统计分析以及python 金融数据分析;Hadoop HDFS、python Hadoop MapReduce、python Spark core、python Spark SQL以及python Spark MLlib。

    ​8、Python机器学习

    主要学习KNN算法、线性回归、逻辑斯蒂回归算法、决策树算法、朴素贝叶斯算法、支持向量机以及聚类k-means算法。

    python中append()和extend()有什么区别?
    刘老师 Python编程

    python列表中,append()和extend()都可以在在原有列表上增加对象,但是使用起来有很大区别。append()用于在列表末尾添加新的对象,任意对象都是可以的,列表只占一个索引位,会修改原来的列表。extend()向列表尾部追加一个列表,对象必须是一个可以迭代的序列,将列表中的每个元素都追加进来,会在已存在的列表中添加新的列表内容。详情请看本文。

    一、append()

    用于在列表末尾添加新的对象,列表只占一个索引位,在原有列表上增加。

    1、语法

    list.append(obj)

    2、参数obj 

    向列表中添加一个对象obj ,即添加到列表末尾的对象;

    任意对象都是可以的;

    直接将整个obj放入列表末尾。

    3、返回值

    无返回值,但是会修改原来的列表。

    4、使用实例

     lia.append(lib)
     lia>>   ['aa', 1, 'bb', None, ['cc', 2, {'dd': 3}]]

    二、extend() 

    向列表尾部追加一个列表,将列表中的每个元素都追加进来,在原有列表上增加。

    1、语法

    list.extend(seq)

    2、参数seq 

    把一个序列seq的内容添加到列表中,即元素列表;

    对象必须是一个可以迭代的序列;

    将seq打散后依次放入列表末尾。

    3、返回值

    无返回值,但会在已存在的列表中添加新的列表内容。

    4、使用实例

    lia.extend(lib)      不能用变量接收
    
    lia>>  ['aa', 1, 'bb', None, 'cc', 2, {'dd': 3}]

    以上就是python中append()和extend()的对比分析,希望能对你有所帮助哦~

    注册电脑版

    版权所有 2003-2020 广州环球青藤科技发展有限公司