这个项目使用前端纯 HTML、JavaScript 和 JSON 技术,并由 Python 生成标准 JSON。它拥有适用于 30 多个常用网站的采集规则,并支持多线程抓取。它可以在 5 秒内完成对 30 多个网站的采集。相同网站的内容被放置在一个框架内,可实现局部刷新和滚动。此外,该项目还包括以下功能:
- 更新时间显示:按照网站自带的更新时间或按时间排序的第一条时间进行采集,并以此显示更新时间。如果无法采集到更新时间,则显示采集完成时间。
- 内容链接防盗链:通过使用 base64、字符逆序、大小写反转等加密方式,防止内容链接被盗链。
- 链接点击统计:统计内容链接的点击率。
- 鼠标悬停提示:当鼠标悬停在某些内容上时,会出现提示信息。例如,如果 appstore 排行榜有更新的内容、时间和版本号,提示信息就会显示相关内容。
安装该项目的步骤如下:
- 使用 Python3 运行 caiji.py 进行采集(可使用 screen 或 nohup 保持后台运行)。
- 打开首页进行访问。
请注意,caiji.py 是后端采集程序,其他文件是前端文件,需要位于同一目录下。如果需要修改相关文件,请查看源码和注释。admin.php 是第三方数据库管理程序,用于内容链接统计查看。默认密码为 admin,但请在文件中修改。单击统计数据库 log.db 会在首次访问内容链接时自动生成。如果未生成,请确保主目录具有写入权限。为了安全起见,请将后端程序 caiji.py 和数据库管理程序 admin.php 的文件名改为更复杂的名称,或将它们移动到非 Web 目录中(同时需要修改源码中生成 JSON 保存的目录,默认为当前目录)。如果遇到问题,请尝试使用单线程模式进行采集。因为今日头条的采集内容相似度太高,推荐的内容可能杂乱无章。请更换自己的 Cookie 进行采集。另外,请注意,部分采集站的标志已更改为透明的 PNG 图层,在非白色背景下可能会显示异常。
这个学习教程非常好,推荐
非常好的素材网