百度360必应搜狗淘宝本站头条
当前位置:网站首页 > IT知识 > 正文

angularjs应用prerender.io 搜索引擎优化实践

liuian 2025-05-05 17:00 102 浏览

上一篇博文(
http://www.cnblogs.com/ideal-lx/p/5625428.html)介绍了单页面搜索引擎优化的原理,以及介绍了两个开源框架的优劣。prerender框架的工作原理在上篇也有介绍,本片博文主要介绍prerender.io的部署实践过程。其实部署的过程还是比较简单的,阅读原网站可以直接移步:
https://github.com/prerender/prerender。

一、支持google优化方案

上篇文也有提到,谷歌提出了自己的一套针对ajax页面的抓取方案,prerender在这里同样对其做了支持。使用起来很简单:

1、添加<meta name="fragment" content="!">标签在每个主页面的header内。

2、如果url中含有#,将它们变成#!(hash-bang)的形式.

关于上面第二点,angular的api $
locationProvider.hashPrefix('!');即可使url变成hash-bang形式。

二、prerender.io服务端部署

prerender官方提供了云服务,获取tocken后便可以配置使用。不过我们这里不想使用官方的服务,选择自己搭建自己的可控prerender服务,当然,最好使用linux机器作为服务器。过程也非常简单,上篇介绍,prerender服务是一个持续在跑的node服务,负责接收client转发过来的请求,然后再请求web服务,获得html、js等静态文件后执行并继续请求后续ajax请求。首先要在服务器上安装node运行环境,执行以下步骤即可安装部署prerender服务:

$ git clone https://github.com/prerender/prerender.git

$ cd prerender

$ npm install

$ node server.js

过程中会安装phantomjs,最后一步“node server.js”便启动了prerender服务。我们先来看一看源码的目录:

最外层的server.js 是启动的主逻辑脚本,内容很短,作用是加载插件,然后启动服务。lib文件夹下有一个plugins文件夹,存放了一系列插件,如黑白名单、缓存、日志等等功能,可以在外层目录的server.js 内选择性加载使用。lib下的index.js定义了监听的端口和启用服务,server.js里是具体的请求和返回处理逻辑,phantomjs的启停也是在其中,prerender会启动多个phantomjs进程并行处理请求。

服务跑起来之后,如无特殊指定和修改,此时的默认端口是3000,可以尝试访问:
http://localhost:3000/http://www.yourwebsite.com
看到这里就清楚了,其实就是把咱们页面的url当做参数传给prernder服务,就可以了。如果是在另外的主机,同样可以访问 http://prerender服务的地址:监听端口号/需要渲染的页面url,即可看到通过prerender.io渲染后的页面。如果有条件的话可以通过本地爬虫访问此url,你会发现所有的动态数据也可以同样得到。

如果你担心你的prerender服务会异常崩溃,可以安装forever指令,使用forever指令用守护进程的方式启动prerender服务,类似于这样:forever start -l prerender.log --spinSleepTime 5000 --minUptime 5000
/usr/local/prerender-linux/server.js 进一步的,你可以将启动指令写入linux启动文件中,做重启的自启动。到这里prerender服务基本上就搭建成功了。

三、prerender.io客户端部署

prerender提供了非常丰富的客户端实现方案,包括node、Ruby、Apache、Nginx、Java、Go、Grails等等官方非官方方案,上面git的连接即可以查到各个方案的部署方式。笔者的应用是前后端分离使用nginx做静态资源容器的环境,这里介绍一下nginx的部署方案,以下是官方提供的nginx.conf 的配置文件:

server {
listen 80;
server_name example.com;
root /path/to/your/root;
index index.html;
location / {
try_files $uri @prerender;
}
location @prerender {
set $prerender 0;
if ($http_user_agent ~* "baiduspider|twitterbot|facebookexternalhit|rogerbot|linkedinbot|embedly|quora link preview|showyoubot|outbrain|pinterest|slackbot|vkShare|W3C_Validator") {
set $prerender 1;
}
if ($args ~ "_escaped_fragment_") {
set $prerender 1;
}
if ($http_user_agent ~ "Prerender") {
set $prerender 0;
}
if ($uri ~ "\.(js|css|xml|less|png|jpg|jpeg|gif|pdf|doc|txt|ico|rss|zip|mp3|rar|exe|wmv|doc|avi|ppt|mpg|mpeg|tif|wav|mov|psd|ai|xls|mp4|m4a|swf|dat|dmg|iso|flv|m4v|torrent|ttf|woff)") {
set $prerender 0;
}
#resolve using Google's DNS server to force DNS resolution and prevent caching of IPs
resolver 8.8.8.8;
if ($prerender = 1) {
#setting prerender as a variable forces DNS resolution since nginx caches IPs and doesnt play well with load balancing
set $prerender "192.168.1.168:3000*";
rewrite .* /$scheme://$host$request_uri? break;
proxy_pass http://$prerender;
}
if ($prerender = 0) {
rewrite .* /index.html break;
}
}
}

下面对相关参数做简单介绍:

listen:监听端口号,根据项目实际情况而定。

server_name:监听的域名。

root :默认首页的路径。

index:默认的首页页面。

location @prerender 下依次是对:userAgent的配置、可根据需要自行添加;_escaped_fragment_符号的过滤;prerender自己爬虫请求的排除;不需要抓取的文件类型配置,可自行添加。

然后下面 如果$prerender 变量为1,就把请求定向到prerender服务所在的地址。

四、缓存的设置

prerender提供了丰富的缓存机制,用来存储已抓取的页面,当下次同样的页面抓取请求再来的时候prerender便可以命中缓存返回给爬虫。笔者使用的是levelDB的缓存,安装可查看
https://github.com/maxlath/prerender-level-cache,需要安装一个node外壳的levelDB数据库,供prerender服务插件调用。插件的启用方法,就是在server.js里
server.use(require('prerender-level-cache'));即可。

另外在生产环境测试的时候,笔者遇到一个问题,就是pererender服务跑了一段时间之后,爬虫过来的请求有些会返回304状态码回去,这样的话爬虫是收不到页面数据的。304是http协议做缓存控制的状态码,返回304意味着服务端认为请求方拥有最新的缓存。我解决这个问题的方式是又开启了一次phantomjs的本地缓存,在prerender服务的lib\server.js里server.createPhantom方法内将phantomjs的启动参数改为:var args = {'--load-images': false, '--ignore-ssl-errors': true, '--ssl-protocol': 'tlsv1.2'}; 这个问题便没有再出现。

相关推荐

m2固态硬盘安装系统教程(m2固态如何装系统)

加装m.2固态硬盘后,重装系统的操作步骤如下:1、下载U盘启动盘制作工具,下载一个GHOST版最新的WIN7,准备一个足够大的U盘(16G足够了),用U盘启动盘制作工具将其制作成启动U盘;2、插入新电...

运行chkdsk工具(运行chkdsk工具怎么解决)

1、win+R键打开运行,输入cmd。2、输入并回车执行chkdsk/?命令,可以了解chkdsk命令的使用方法。3、比如一些常用的命令,输入并按回车执行chkdskm:/f命令,可以检...

办公软件2007官方下载免费完整版

office字体都变成了英文是因为设置了英文模式。具体的解决步骤如下:我们需要准备的材料分别是:电脑、Word文档。1、首先我们打开Word文档,点击打开左上角的文件中的“选项”。2、然后我们在弹出来...

手机u盘有必要买吗(手机u盘需要什么软件)

网上卖的手机U盘大都是各地的实体数码店进行发货和销售的。他们采用的U盘质量和工厂生产的质量是一致的。并没有什么区别对待。而且由于网上销售费用比较低,所以他在售卖比实体数码店售卖的价格更低,所以这种手机...

电脑系统怎么下载到u盘中(电脑系统win7纯净版下载官方免费版最新版)

下载电脑系统,可以到电脑系统资源下载网站,找到下载页面的下载点,右击下载点,选择迅雷下载,可以把系统文件下载到硬盘里,然后插上U盘,将下载好的系统文件复制到U盘。另一种方法是,将迅雷软件的默认下载路径...

小米主题安装器(红米主题商店app下载安装)

很抱歉,一加九手机无法直接安装小米主题。因为一加九和小米手机使用的是不同的操作系统和主题引擎,它们之间不兼容。一加九使用的是基于Android的OxygenOS操作系统,而小米手机使用的是基于Andr...

hp电脑恢复出厂系统(hp电脑恢复出厂系统操作)

  在开始菜单的【设置】中找到【重置此电脑】的选项即可开始重置恢复到出厂设置;如果您需要整个硬盘格式化,可以选择其中的【删除所有文件】的选项,等待系统设置完成之后会重新进入新系统设置。以下是详细介绍:...

ghost做c盘镜像的步骤(ghost制作镜像步骤)

共9个步骤:1、一般GHOST工具是在PE启动后使用,这个就是PE中GHOST所在路径,找到这个软件并运行。2、界面是英文版本的,因为软件的易操作易学习性,所以这个软件基本没有中文版版本,然后在弹出的...

win10家庭版怎么激活系统(win10家庭版激活步骤)

win10家庭中文版怎么激活1.在win10系统桌面上,点击左下角的开始按钮选择设置选项进入。2.进入设置列表菜单,点击更新和安全选项进入。3.点击激活选项继续下一步操作。4.在弹出输入产品密钥的对话...

office2010和2016区别(office2010和2016差别大不大)

一、指代不同1、word2010:Word2010是Microsoft公司开发的Office2010办公组件之一,主要用于文字处理工作。2、word2016::Word2016是Microsoft公司...

在电脑上怎么截图(在电脑上怎么截图保存到桌面)
  • 在电脑上怎么截图(在电脑上怎么截图保存到桌面)
  • 在电脑上怎么截图(在电脑上怎么截图保存到桌面)
  • 在电脑上怎么截图(在电脑上怎么截图保存到桌面)
  • 在电脑上怎么截图(在电脑上怎么截图保存到桌面)
win10官网下载教程(windows官网下载win10)

步骤1首先打开360安全浏览器步骤2在搜索框中输入“微软官网”,点击“搜索”按钮步骤3点击进入微软官网步骤4下滑界面,在下方可以看到可以下载的系统,此处以windows10企业版下载为例,点击这个版本...

恢复帝app下载(恢复帝app官方)

微信删除好友一般是不能恢复的,有时候在网上会看到一些关于微信删除好友可以帮助恢复的黑客,大多数都是骗人的,因此,再着急恢复好友也需要理智、谨防上当受骗。1.电源:首先确认摄像头通电是否正常状态,指示灯...

系统之家下载安装(系统之家安装版)

是靠谱的。系统之家(HomeSystem)广义上包含了电脑系统安装和手机系统安装,在之前手机软件还不是很普及的时候一般特指电脑系统安装,可如今手机用户大量的出现,安卓系统可以说超过Windows系统...

win10正版系统官网原版纯净版老电脑

一,纯净版Win10系统是根据正版系统制作的,没有夹杂其它软件和驱动,和正版系统一样安装完后需要打各种驱动和根据安装常用软件。二,本质上纯净版Win10也是盗版系统,这是和正版系统最大的区别,而且可能...