爬虫02-Excel文件的操作

2022-09-20 10:48:21

将数据写入Excel文件

Excel 2007以前的版本---->xls---->xlwt/xlrd

写/读

Excel 2007以后的版本---->xlsx—>openpyxl
一个工作簿下可以创建多个工作表(worksheet)
工作表是二维表,有行有列,列和行交汇的地方叫单元格

import reimport timeimport randomimport csvimport bs4import requestsimport xlwt# 创建一个工作簿对象
wb= xlwt.Workbook()# 通过工作簿对象的add_sheet方法添加一张工作表
sheet= wb.add_sheet('TOP250')# 向表中写入数据
sheet.write(0,0,'标题')
sheet.write(0,1,'评分')
row=1
pattern= re.compile(r'<span class="title">(.+?)</span>')for pageinrange(10):
    resp= requests.get(
        url=f'https://movie.douban.com/top250?start={page*25}',
        headers={'User-Agent':'http://piping.mogumiao.com/proxy/api/get_ip_bs?appKey=3ee6f035175f4b508d8a825da0fb3833&count=4&expiryDate=0&format=2&newLine=3'})# print(resp.status_code)if resp.status_code==200:
        soup= bs4.BeautifulSoup(resp.text,'html.parser')# nth-child(1)--- a标签的span里第一个孩子的元素
        title_span_list= soup.select('div.info>div.hd>a>span:nth-child(1)')
        rating_span_list= soup.select('div.info>div.bd>div>span.rating_num')for title_span, rating_spaninzip(title_span_list, rating_span_list):
            sheet.write(row,0,title_span.text)
            sheet.write(row,1,rating_span.text)
            row+=1
    time.sleep(random.randint(1,3))# 保存工作簿
    wb.save('豆瓣电影.xls')
  • 作者:niki__
  • 原文链接:https://blog.csdn.net/niki__/article/details/121459437
    更新时间:2022-09-20 10:48:21