Unsplash是个高清摄影图片的网站,里面的照片非常精美,分辨率也很高。最重要的是,所有的照片都没有版权,无须向原作者申请授权
贝特阿斯网站案例赏析,即可任意使用。
最近闲暇的时候写了个爬虫爬了下Unsplash上的那些高赞的壁纸,爬虫原理非常简单
北京自适应网站建设,就是爬取所有的壁纸,然后筛选那些赞数最高的图片。
第一步我们爬取Unsplash所有的壁纸图片信息,并存入MongoDB。
代码如下:
爬下来的数据里面包含了几个重要的字段。
我们最关心的就是likes这个字段,这个里面存了图片的赞数,后续我们筛选高赞图片的时候会用到。
还有两个字段分别是width和height,这是图片的宽度和高度,因为我们这里关注的是桌面壁纸,所以只关心宽度大于高度的那些壁纸。
爬完图片信息后,接下来我们从数据库筛选高赞图片。
代码如下:
这里我们会根据图片信息里的URL去下载图片。需要注意的是,如果过于频繁地爬取Unsplash,会导致爬虫被封,所以这里每次下载完都会睡个10秒钟。
以上,就可以爬取出精美的高清壁纸啦。
作者沈仲强,资深Python程序员,先后供职于Morgan Stanley和ebay,擅长爬虫、Web开发、数据分析。
(郑重声明:本文版权归原作者沈仲强所有,转载文章仅为传播更多信息之目的,如有侵权
美国,请联系我们删除;如作者信息标记有误,请联系我们修改。)
,