分享Python7个爬虫小案例（附源码）

42 阅读 0 评论 0 点赞

Python是一种非常适合网络爬虫的编程语言，因其丰富的第三方库和简单的语法，使得爬虫的实现变得快捷而高效。下面分享7个简单的Python爬虫小案例，包括具体的代码示例，希望能为你提供帮助。

案例1：爬取豆瓣电影 TOP250

import requests
from bs4 import BeautifulSoup

url = 'https://movie.douban.com/top250'
response = requests.get(url)
soup = BeautifulSoup(response.text, 'html.parser')

movies = soup.find_all('div', class_='info')
for movie in movies:
    title = movie.find('span', class_='title').text
    rating = movie.find('span', class_='rating_num').text
    print(f'电影名称: {title}, 评分: {rating}')

案例2：抓取天气信息

import requests

city = 'Shanghai'
url = f'http://wttr.in/{city}?format=%C+%t'
response = requests.get(url)
print(f'{city}的天气情况：{response.text}')

案例3：爬取知乎问题的回答

import requests
from bs4 import BeautifulSoup

question_id = '123456'  # 假设这是一个知乎问题的ID
url = f'https://www.zhihu.com/question/{question_id}'
headers = {'User-Agent': 'Mozilla/5.0'}
response = requests.get(url, headers=headers)
soup = BeautifulSoup(response.text, 'html.parser')

answers = soup.find_all('div', class_='Answer')
for answer in answers:
    content = answer.find('div', class_='RichContent')
    print(content.text)

案例4：下载图片

import requests

url = 'https://www.example.com/path/to/image.jpg'
response = requests.get(url)

with open('image.jpg', 'wb') as f:
    f.write(response.content)
print('图片下载完成！')

案例5：抓取小说章节

import requests
from bs4 import BeautifulSoup

url = 'http://www.example.com/novel/chapter1'
response = requests.get(url)
soup = BeautifulSoup(response.text, 'html.parser')

chapter_title = soup.find('h1').text
content = soup.find('div', class_='content').text
print(f'章节标题: {chapter_title}\n内容: {content}')

案例6：爬取知乎用户信息

import requests

username = 'zhihuzhiyang'  # 假设这是一个知乎用户名
url = f'https://www.zhihu.com/people/{username}'
headers = {'User-Agent': 'Mozilla/5.0'}
response = requests.get(url, headers=headers)

print(response.text)  # 输出用户的主页HTML

案例7：简单的爬虫进阶：使用 Scrapy

# 创建 Scrapy 项目并在 spiders 文件夹中创建 spider.py
import scrapy

class QuotesSpider(scrapy.Spider):
    name = "quotes"
    start_urls = [
        'http://quotes.toscrape.com/'
    ]

    def parse(self, response):
        for quote in response.css('div.quote'):
            yield {
                'text': quote.css('span.text::text').get(),
                'author': quote.css('small.author::text').get(),
            }

# 运行命令: scrapy crawl quotes -o quotes.json

以上就是7个简单的 Python 爬虫小案例。通过这些实例，你可以看到使用 Python 进行网页数据抓取是相对直接的。你可以根据自己的需求修改代码，爬取其他网页的数据。在使用爬虫时，请务必遵循目标网站的爬虫协议 (robots.txt) 和相关法律法规，合理利用数据。

点赞(0) 打赏

本文分类：后端
本文标签：python 爬虫开发语言
浏览次数：42 次浏览
发布日期：2024-10-18 03:25:48
本文链接：http://makehui.com/houduan/6966.html

上一篇 > 本地大模型5：在pycharm用python调用ollama本地大模型
下一篇 > [Python学习日记-36] Python 中的内置函数（中）

分享Python7个爬虫小案例（附源码）

案例1：爬取豆瓣电影 TOP250

案例2：抓取天气信息

案例3：爬取知乎问题的回答

案例4：下载图片

案例5：抓取小说章节

案例6：爬取知乎用户信息

案例7：简单的爬虫进阶：使用 Scrapy

微信扫一扫：分享

【Py/Java/C++三种语言OD独家2024E卷真题】20天拿下华为OD笔试之【模拟】2024E-转骰子【欧弟算法】全网注释最详细分类最全的华为OD真题题解

【Rust】——【面向对象语言的特征】

【Golang】关于Gin框架请求参数的获取

初级爬虫实战——巴黎圣母院新闻

微信扫一扫：分享