当前位置: 首页 > news >正文

企业所得税多少钱起征福建seo

企业所得税多少钱起征,福建seo,苏州建设工程公司网站,网站在线客服哪个好python自动化爬虫实战 偶然的一次机会再次用到爬虫,借此机会记录一下爬虫的学习经历,方便后续复用。 需求:爬取网站数据并存入的csv文件中,总体分为两步 爬取网站数据存到到csv文件中 1、配置爬虫环境 1.1、下载自动化测试驱动 …

python自动化爬虫实战

偶然的一次机会再次用到爬虫,借此机会记录一下爬虫的学习经历,方便后续复用。

需求:爬取网站数据并存入的csv文件中,总体分为两步

  1. 爬取网站数据
  2. 存到到csv文件中

1、配置爬虫环境

1.1、下载自动化测试驱动

由于需要实现模拟手动点击浏览器的效果,因此笔者使用到了chromedriver.exe自动化驱动文件。这里选择谷歌浏览器相同版本的驱动。
驱动下载中心

比如:笔者浏览器为110版本,因此下载110版本的driver,因为window只有32位,因此不用犹豫直接下载chromedriver_win32.zip文件

在这里插入图片描述

1.2、下载需要的库文件

笔者这里用到了:requestseleniumbeautifulsoup4
在Setting中的Project项目下载对应的库文件
在这里插入图片描述

2、编写代码

以上爬虫环境配置完成后,接下来便可以编码了。
爬虫的基本逻辑:

  1. 配置谷歌浏览器的驱动文件和自动化测试文件
  2. 创建保存爬取数据的字典和设置读取的起始页码和结束页码
  3. 判断是否有下一页并进行等待,如果没有下一页则直接退出
  4. 解析读取到的页面信息
  5. 保存到csv文件中

根据以上的逻辑,大致就可以理解代码的意思了

from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from selenium.webdriver.chrome.options import Options
from selenium.webdriver.chrome.service import Service
import csv# 1、设置自动化启动的浏览器和浏览器的驱动器
options = Options()
# 设置自己电脑的浏览器启动文件目录
options.binary_location = "C:\\Users\\wuming\\Google\\Chrome\\Application\\chrome.exe"
options.add_argument('–-incognito')
options.add_argument('--disable-infobars')
options.add_argument('--start-maximized')
# 自动化浏览器驱动器
driver = webdriver.Chrome(options=options, service=Service("D:\\chromedriver.exe"))# 2、设置爬取的网站
url = 'https://bj.zu.anjuke.com/fangyuan/'
driver.get(url)# 3、存储爬取的数据  -这里根据需要修改需要存储多少位
data = [['title', 'price', 'detail_url']]# 4、开始爬取数据
# 计数需要爬取多少数据,一页60条,5k则需要爬取10页,begin:起始页  end:结束页
begin = 1
end = 1
while True:# 4.1、等待下一页按钮出现try:next_button = WebDriverWait(driver, 10).until(EC.presence_of_element_located((By.LINK_TEXT, '下一页 >')))except:break# 4.2、点击下一页按钮next_button.click()# 判断是否到达结束页,到达则退出if begin > end:breakbegin = begin + 1# 4.3、等待页面加载完成WebDriverWait(driver, 10).until(EC.presence_of_element_located((By.CLASS_NAME, 'zu-itemmod')))# 4.4、解析页面数据house_list = driver.find_elements(By.CLASS_NAME, 'zu-itemmod')for house in house_list:title = house.find_element(By.TAG_NAME, 'h3').text.strip()price = house.find_element(By.TAG_NAME, 'strong').text.strip()detail_url = house.find_element(By.TAG_NAME, 'a').get_attribute('href')print(title, price, detail_url)# 4.5、向data中添加数据data.append([title, price, detail_url])driver.quit()# 5、将爬取的数据存入csv文件中
with open('D:\\wuming\\data.csv', 'w', newline='') as file:writer = csv.writer(file)for row in data:writer.writerow(row)

根据以上代码,相信大家已经可以爬取数据,至于内容的提取,则需要大家各显神通,后面会详细写一篇文章,说一说如何从爬取的网页中获取想要的信息。

http://www.wooajung.com/news/33500.html

相关文章:

  • 怎么做网站布局西地那非片的功能主治
  • 新建网站seo优化怎么做2022十大网络营销案例
  • 做第一个网站什么类型优化seo培训班
  • 网站建设中最重要的环节是近期新闻热点
  • 如何实现一个响应式网页新seo排名点击软件
  • 企业网站建设合同范本网站开发公司排名
  • 电子商务网站建设有管理课后答案网站排名优化
  • 个人响应式网站建设南宁网络推广有几家
  • 做网站生成btc地址狼雨的seo教程
  • 网站中微信公众号链接怎么做百度非企渠道开户
  • 做教育网站用什么颜色如何做网站推广私人
  • 如何查外贸网站外链免费十大软件大全下载安装
  • 福建商城网站制作公司网站友情链接是什么
  • 什么网站可以做公务员题蚁坊软件舆情监测系统
  • 昆明网站建设ynmdwl大连谷歌seo
  • 长沙网站建设公司联系方式站长工具在线
  • 一步一步教你做网站百度推广培训班
  • 辽宁省辽宁省建设厅网站啦啦啦资源视频在线观看8
  • 公司内部网站页面设计公司网站域名怎么注册
  • sns网站是什么营销策划与运营公司
  • 装饰工程 技术支持 东莞网站建设免费的网站域名查询
  • 网站怎么做域名实名认证信息互联网推广
  • 美发企业网站模板google关键词推广
  • wordpress动态行情页面整站排名优化品牌
  • 做论文常用网站惠州seo推广优化
  • 微网站的图标怎么做百度知道小程序
  • 怎么设计一个网站seo门户网站优化
  • 驻马店哪家做网站好微信小程序开发一个多少钱啊
  • 天元建设集团有限公司开票信息seo群发软件
  • 辽阳企业网站建设团队市场营销专业课程