Python爬虫——Python 岗位分析报告

前两篇大家分别爬取了糗事百科和四姐图网站,学习了 Requests, Beautiful
Soup 的中坚拔取。然则前两篇都是从静态 HTML
页面中来筛选出大家需要的音信。这一篇我们来上学下何以来获取 Ajax
请求重返的结果。

欢迎关注公号【智能创建专栏】学习更多原创智能创造及编程知识。

Python
爬虫入门(二)——爬取妹子图

ca88官网,Python
爬虫入门(一)——爬取糗百

本篇以兼职网为例来表明一下怎么样拿到 Ajax 请求内容

本文目的

  1. 收获 Ajax 请求,解析 JSON 中所需字段
  2. 数量保存到 Excel 中
  3. 多校尉存到 MySQL, 方便分析

大概解析

两个都市 Python 岗位平均薪大渡河平
ca88官网 1

Python 岗位要求学历分布
ca88官网 2

Python 行业领域分布
ca88官网 3

Python 公司规模分布
ca88官网 4

翻看页面结构

我们输入查询条件以 Python 为例,其他标准化默认不选,点击查询,就能来看有着
Python 的职位了,然后我们开拓控制台,点击网络标签可以观察如下请求:
ca88官网 5

从响应结果来看,这些请求正是大家需要的内容。后边我们间接呼吁这一个地址就好了。从图中得以见见
result 下面就是各类岗位音讯。

到此地我们知道了从哪个地方请求数据,从哪儿拿到结果。可是 result
列表中只有首先页 15 条数据,其他页面数据怎么获取呢?

解析请求参数

我们点击参数选项卡,如下:
ca88官网 6
意识提交了两个表单数据,很肯定看出来 kd 就是我们摸索的最首要词,pn
就是目前页码。first 默认就行了,不用管它。剩下的作业就是布局请求,来下载
30 个页面的数码了。

布局请求,并分析数据

布局请求很粗略,大家如故用 requests 库来搞定。首先大家社团出表单数据
data = {'first': 'true', 'pn': page, 'kd': lang_name} 之后用 requests
来呼吁url地址,解析得到的 Json
数据就是大功告成了。由于拉勾对爬虫限制相比较严俊,大家需要把浏览器中
headers 字段全体抬高,而且把爬虫间隔调大一点,我背后设置的为
10-20s,然后就能健康获取数据了。

import requests

def get_json(url, page, lang_name):
    headers = {
        'Host': 'www.lagou.com',
        'Connection': 'keep-alive',
        'Content-Length': '23',
        'Origin': 'https://www.lagou.com',
        'X-Anit-Forge-Code': '0',
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:61.0) Gecko/20100101 Firefox/61.0',
        'Content-Type': 'application/x-www-form-urlencoded; charset=UTF-8',
        'Accept': 'application/json, text/javascript, */*; q=0.01',
        'X-Requested-With': 'XMLHttpRequest',
        'X-Anit-Forge-Token': 'None',
        'Referer': 'https://www.lagou.com/jobs/list_python?city=%E5%85%A8%E5%9B%BD&cl=false&fromSearch=true&labelWords=&suginput=',
        'Accept-Encoding': 'gzip, deflate, br',
        'Accept-Language': 'en-US,en;q=0.9,zh-CN;q=0.8,zh;q=0.7'
    }
    data = {'first': 'false', 'pn': page, 'kd': lang_name}
    json = requests.post(url, data, headers=headers).json()
    list_con = json['content']['positionResult']['result']
    info_list = []
    for i in list_con:
        info = []
        info.append(i.get('companyShortName', '无'))
        info.append(i.get('companyFullName', '无'))
        info.append(i.get('industryField', '无'))
        info.append(i.get('companySize', '无'))
        info.append(i.get('salary', '无'))
        info.append(i.get('city', '无'))
        info.append(i.get('education', '无'))
        info_list.append(info)
    return info_list

得到具有数据

打探了哪些剖析数据,剩下的就是接连请求所有页面了,我们协会一个函数来呼吁所有
30 页的数目。

def main():
    lang_name = 'python'
    wb = Workbook()
    conn = get_conn()
    for i in ['北京', '上海', '广州', '深圳', '杭州']:
        page = 1
        ws1 = wb.active
        ws1.title = lang_name
        url = 'https://www.lagou.com/jobs/positionAjax.json?city={}&needAddtionalResult=false'.format(i)
        while page < 31:
            info = get_json(url, page, lang_name)
            page += 1
            import time
            a = random.randint(10, 20)
            time.sleep(a)
            for row in info:
                insert(conn, tuple(row))
                ws1.append(row)
    conn.close()
    wb.save('{}职位信息.xlsx'.format(lang_name))

if __name__ == '__main__':
    main()

总体代码

import random
import time

import requests
from openpyxl import Workbook
import pymysql.cursors


def get_conn():
    '''建立数据库连接'''
    conn = pymysql.connect(host='localhost',
                                user='root',
                                password='root',
                                db='python',
                                charset='utf8mb4',
                                cursorclass=pymysql.cursors.DictCursor)
    return conn


def insert(conn, info):
    '''数据写入数据库'''
    with conn.cursor() as cursor:
        sql = "INSERT INTO `python` (`shortname`, `fullname`, `industryfield`, `companySize`, `salary`, `city`, `education`) VALUES (%s, %s, %s, %s, %s, %s, %s)"
        cursor.execute(sql, info)
    conn.commit()


def get_json(url, page, lang_name):
    '''返回当前页面的信息列表'''
    headers = {
        'Host': 'www.lagou.com',
        'Connection': 'keep-alive',
        'Content-Length': '23',
        'Origin': 'https://www.lagou.com',
        'X-Anit-Forge-Code': '0',
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:61.0) Gecko/20100101 Firefox/61.0',
        'Content-Type': 'application/x-www-form-urlencoded; charset=UTF-8',
        'Accept': 'application/json, text/javascript, */*; q=0.01',
        'X-Requested-With': 'XMLHttpRequest',
        'X-Anit-Forge-Token': 'None',
        'Referer': 'https://www.lagou.com/jobs/list_python?city=%E5%85%A8%E5%9B%BD&cl=false&fromSearch=true&labelWords=&suginput=',
        'Accept-Encoding': 'gzip, deflate, br',
        'Accept-Language': 'en-US,en;q=0.9,zh-CN;q=0.8,zh;q=0.7'
    }
    data = {'first': 'false', 'pn': page, 'kd': lang_name}
    json = requests.post(url, data, headers=headers).json()
    list_con = json['content']['positionResult']['result']
    info_list = []
    for i in list_con:
        info = []
        info.append(i.get('companyShortName', '无'))  # 公司名
        info.append(i.get('companyFullName', '无'))
        info.append(i.get('industryField', '无'))   # 行业领域
        info.append(i.get('companySize', '无'))  # 公司规模
        info.append(i.get('salary', '无'))   # 薪资
        info.append(i.get('city', '无'))
        info.append(i.get('education', '无'))   # 学历
        info_list.append(info)
    return info_list   # 返回列表


def main():
    lang_name = 'python'
    wb = Workbook()  # 打开 excel 工作簿
    conn = get_conn()  # 建立数据库连接  不存数据库 注释此行
    for i in ['北京', '上海', '广州', '深圳', '杭州']:   # 五个城市
        page = 1
        ws1 = wb.active
        ws1.title = lang_name
        url = 'https://www.lagou.com/jobs/positionAjax.json?city={}&needAddtionalResult=false'.format(i)
        while page < 31:   # 每个城市30页信息
            info = get_json(url, page, lang_name)
            page += 1
            time.sleep(random.randint(10, 20))
            for row in info:
                insert(conn, tuple(row))  # 插入数据库,若不想存入 注释此行
                ws1.append(row)
    conn.close()  # 关闭数据库连接,不存数据库 注释此行
    wb.save('{}职位信息.xlsx'.format(lang_name))

if __name__ == '__main__':
    main()

GitHub
地址:https://github.com/injetlee/Python/tree/master/%E7%88%AC%E8%99%AB%E9%9B%86%E5%90%88

假设您想要爬虫获取的职务音信,请关注公号【智能创建专栏】后台留言发送
“python岗位”。
ca88官网 7

相关文章