博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
爬取小猪短租房.py文件
阅读量:6614 次
发布时间:2019-06-24

本文共 1346 字,大约阅读时间需要 4 分钟。

from bs4 import BeautifulSoup import requests import time urls = [] def get_link_from(page_number):     for each_number in range(1,page_number):         list_view = 'http://bj.xiaozhu.com/search-duanzufang-p{}-0/'.format(each_number)         wb_data = requests.get(list_view)         soup = BeautifulSoup(wb_data.text,'lxml')         for link in soup.select('div.result_btm_con.lodgeunitname'):             urls.append(link.get('detailurl'))     return urls def print_gender(class_name):     if class_name == "member_girl_ico":         return "女"     if class_name == "member_girl_icol":         return "男" def get_item_info(page_number):     urls = get_link_from(page_number)     for url in urls:         wb_data =requests.get(url)         soup = BeautifulSoup(wb_data.text,'lxml')         data = {
'title ': soup.select('div.pho_info > h4')[0].text, 'address' : soup.select('div.pho_info > p > span')[0].text.strip(' '), 'price' : soup.select('#pricePart > div.day_l > span')[0].text, 'pic' : soup.select('#curBigImage')[0].get('src'), 'host_name' : soup.select('div.w_240 > h6')[0].text, 'host_gender' : soup.select('div.w_240 > h6 > span')[0].get('class')[0], } print(data) get_item_info(14)

 

 

转载于:https://www.cnblogs.com/dws-love-jfl-1314/p/6008046.html

你可能感兴趣的文章
《Greenplum企业应用实战》一第1章 Greenplum简介1.1 Greenplum的起源和发展历程
查看>>
开源世界已成围城:成本让企业蜂拥而来,也让企业退缩转投
查看>>
这些废弃的 HTML 标签不要用
查看>>
嵌入式实时应用开发实战(原书第3版)》——3.3 保护模式架构
查看>>
IE11 就这样不会再变了
查看>>
备战物联网平台 科技巨头打响开发者争夺战
查看>>
《仿人机器人原理与实战》一导读
查看>>
深夜食堂|有些泡面说不出哪里好,但就是谁都代替不了
查看>>
Bitbucket 版本控制入门指南
查看>>
《SOA Web Service合约设计与版本化》目录—导读
查看>>
人工智能在医疗:改善药物依从性、虚拟医疗助手、智能看护、智能药物研发......
查看>>
选择IT专业的原因?从薪资角度讲给你听
查看>>
《Python编程快速上手——让繁琐工作自动化》——1.4 在变量中保存值
查看>>
Git 两分钟指南
查看>>
想改进你的卷积神经网络?看看这14种设计模式!
查看>>
《Swift入门经典(第2版)》——导读
查看>>
安装完最小化 RHEL/CentOS 7 后需要做的 30 件事情(六)
查看>>
《用Python写网络爬虫》——第1章 网络爬虫简介 1.1 网络爬虫何时有用
查看>>
2000万人口的大北京,上下班原来是这样的 (附超炫蝌蚪图)
查看>>
《C语言解惑》一1.3 逻辑操作符和增量操作符
查看>>