close
Skip to content

chanwoood/crawl2pdf

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

3 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

crawl2pdf

用法

  • 安装 wkhtmltox,https://wkhtmltopdf.org/downloads.html 。安装后将 bin 目录加入到环境变量。
  • 安装依赖:pip install requests bs4 pdfkit 。
  • 爬取代理:python proxy.py 。
  • 爬取教程并制作电子书:python lxf.py 。

电子书

电子书

思路

短时间多次爬取廖雪峰网站会封 IP,所以必须用 IP 代理池。

关于 IP 代理池,详见我这个项目:https://github.com/96chh/proxy

由于爬取的内容较多,所以采用多线程爬取。

制作出来的电子书还不完美,详见 issues 。

About

爬取廖雪峰 Python 教程并制作成 pdf 电子书

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

 
 
 

Contributors

Languages