微信公众号开发--善忘影视(七)
微信公众号开发--善忘影视(七) 今天我们就来说说数据抓取的问题,数据来源电影网站的数据抓取。 首先想着用网上现成的爬虫程序去抓取想要数据,然后倒入到数据库中。 八抓鱼采集器 测试了一下, 抓取数据什么的功能不是很复杂, 自己设计的表数据, 住去也都是图形化界面,还有能直接导入的,功能还是挺齐全的, 但是免费版本没办法用。功能限制太大了。对于我导入数据来说太难了,毕竟影视的数据会很多。看下图资费情况 ,如果用于商业的话, 其实也还行,可以节约不少开发时间。不过配置起来的, 还是需要懂一点点代码的,不懂代码来用的话难度还是不小的。 火车头采集器 和上面的原因的, 需要自己配置懂点html代码什么的,价格的话, 可能会便宜的, 如下图 所以这两个免费版本都不符合要求, 我还是自己写代码来抓取好了。 桌子前也有过抓取代码的经验, 所以写这个简单的抓取连接并不难。 java抓取数据,解析html比较简单。是用jsoup来做就好。方便快捷。再通过定时器来抓取,比较方便使用。如下代码以‘电影天堂’示例。 网站编码gbk,直接通过jsoup获取会有中文部分乱码,通过去连接url设置字符编码就可以解决….