Skip to main content

BaiduSpider,一个爬取百度的利器

Project description

Contributors Forks Stargazers Issues MIT License


Logo

BaiduSpider

一个爬取百度的利器
简体中文 | 繁體中文 | English
快速上手 »

查看示例 · 报告问题 · 请求需求

目录
  1. 关于本项目
  2. 起步
  3. 简单使用
  4. 项目路线图
  5. 共同维护
  6. 开源协议
  7. 联系方式
  8. 免责声明
  9. 贡献者
  10. 致谢

警告

此分支为dev分支,也就是开发分支。也就是说,所有代码或功能可能都不稳定,仅供参考。不建议在开源项目中使用此分支的BaiduSpider。

关于本项目

项目截图

搜索引擎是一个十分强大的工具,如果能让其他工具集成搜索引擎的众多强大功能,那么必将变得更加强大。但是,目前我没有找到一个可以精准提取搜索引擎搜索结果的开源爬虫。于是,我便编写了这个爬取百度搜索引擎的项目:BaiduSpider。

BaiduSpider的独特功能:

  • 节省提取数据的时间,对于类似深度学习项目的数据模型建立与训练起到了良好的帮助。

  • 精准提取数据,并删除广告。

  • 搜索结果大而全,支持多种搜索类型,支持多种返回类型。

当然,没有一个项目是完美的。任何一个项目的发展都需要社区的帮助。你可以通过发布一个Issue或提交一个PR来帮助BaiduSpider进步!:smile:

一些比较有帮助的文档或工具我将在最后的致谢部分中列出。

制作依赖

一些BaiduSpider使用的主要开源依赖包。

起步

以安装BaiduSpider,请按照以下几个步骤操作。

预先条件

在安装BaiduSpider之前,请确保你安装了Python3.6+

$ python --version

若版本小于3.6.0,请到Python官网下载并安装Python。

安装

使用pip安装

请在命令行中输入下列指令:

$ pip install baiduspider

从GitHub手动安装

$ git clone git@github.com:BaiduSpider/BaiduSpider.git

# ...

$ python setup.py install

简单使用

你可以使用BaiduSpider通过短短的几行代码来获取百度的网页搜索结果:

# 导入BaiduSpider
from baiduspider import BaiduSpider
from pprint import pprint

# 实例化BaiduSpider
spider = BaiduSpider()

# 搜索网页
pprint(spider.search_web(query='Python'))

更多样例和配置,请参照文档

项目路线图

请参考open issues以获取最新的项目规划以及已知问题。

共同维护

项目贡献是开源项目的灵魂所在,也是整个开源社区学习、交流、获得灵感的地方。任何贡献都将极力欢迎

  1. Fork此项目
  2. 创建你的feature分支 (git checkout -b NewFeatures)
  3. 提交你的更改 (git commit -m 'Add some AmazingFeature')
  4. 推送更改 (git push origin username/BaiduSpider)
  5. 提交一个PR

开源协议

此项目的开源协议为GPL-V3,详情请参见LICENSE

联系方式

samzhangjy - @samzhangjy - samzhang951@outlook.com

项目链接: https://github.com/BaiduSpider/BaiduSpider

免责声明

此项目仅作为学习用途,不可商用或爬取百度大量数据。此外,本项目使用GPL-V3版权协议,意味着涉及(使用)此项目的任何其它项目必须开源且注明出处,并且本项目作者将不承担任何法律风险。特此说明,违者后果自负。

贡献者

致谢

Project details


Download files

Download the file for your platform. If you're not sure which to choose, learn more about installing packages.

Source Distribution

BaiduSpider-1.0.0.3.tar.gz (57.8 kB view hashes)

Uploaded Source

Supported by

AWS AWS Cloud computing and Security Sponsor Datadog Datadog Monitoring Fastly Fastly CDN Google Google Download Analytics Microsoft Microsoft PSF Sponsor Pingdom Pingdom Monitoring Sentry Sentry Error logging StatusPage StatusPage Status page