360搜索网页质量白皮书
360搜索会对存在访问异常的网站进行处理,具体来讲:
如果网站经常处在访问不稳定的状态(特别是首页都经常无法打开的),360搜索会降
低网站的收录量及排序;
如果域名停靠或者无法访问,我们将直接删除网站在360搜索中的收录。
因此,我们建议:
建站初期:在遴选域名及空间服务器时,选择品质优秀、服务稳定的产品,并建议配
设相应的容灾机制和应急方案,避免因为服务故障导致网站访问异常;
运营过程中:不建议频繁变更网站设置,特别是与网站访问直接相关的服务器设置;
做好网站可持续访问的准备,提前做好域名、空间续费等事宜,防止他人恶意抢注域名,
给您造成损失;
网站关闭:做好网站关停准备及数据处理,并及时通过站长平台申请删除网站死链。
此外,我们在这里也建议各位站长,将
360搜索的蜘蛛IP
添加到网站的访问白名单
中,保证360搜索能够正常抓取网站的内容。
2.2 网站安全
网站不安全,用户在访问网站过程中可能会遭遇中毒、受骗。
网站被黑,一般是网站对安全问题不受重视,从而导致大规模被挂马和被篡改。在搜
索引擎结果里,被黑的网站往往会有以下体现:
在搜索引擎中,网站标题摘要被篡改成博彩、色情、违法信息,如下图所示:
使用 site 语法,可发现域名下出现大量垃圾子域名或垃圾网页;
通过搜索引擎的访问请求,会被强制跳转到博彩、色情等非法内容站点;
用户去点击这些网站时,可能还会出现被某些安全软件提示报毒等。
图1 网站被黑导致标题摘要被篡改
图2 访问被黑站点时被提示风险
360搜索对于网站是否安全的态度:
对于网站内容优质、访问安全的网站,我们会优先考虑收录;
对于不安全网站,我们会采取降低排序的办法,或直接拒绝收录。
建议网站完善风控机制,规范账号密码及信息管理的流程。及时备份网站数据。防范
潜在的挂马、被黑的风险,防止让他人有机可乘。保障网站的稳定运行!
网页质量评估维度
网站是多个网页共同组成的集合。细化到单个网页的质量时,360搜索在一般会按以
下几个维度进行综合衡量:
内容质量;
用户体验;
网页资源可访问性。
下面,我们向大家具体介绍这些维度:
内容质量
在评价网页的内容质量时,360搜索首先会考虑这个网页内容的优劣,以及对用户需
求是否可以被满足。
3.1
不同类型网页的质量关注维度
网页的形态不尽相同,针对不同类型的页面,360搜索在质量上也会有不同的关注维
度。我们在此举一些常见的例子,供大家参考:
网站首页:
标签是否完善、清晰;网页中的内容及链接是否可访问。
列表页、搜索结果页:
内容与网页主题、搜索词是否有相关性,并且内容清晰,符合用户的习惯。
文章页:
是否提供完整、真实的内容,图文并茂更佳。
新闻页:
具备新闻属性,对新近发生的事实有完整准确的报道,图文并茂更佳。
小说页:
能否提供清晰可阅读的小说内容,无错章,章节之间连贯,更新及时。
文档页:
用户是否可以正常阅读,是否有权限限制。
视频页:
是否清晰且能正常播放,是否有权限限制。
图片页:
图片是否清晰且能浏览,有文字信息介绍该图片中的内容更佳。
百科及问答知识页:
是否对某一事物、词语、现象进行了准确的解释,或具有参考价值
的答案。带有图片或参考资料说明更佳。
以UGC为主要特征的网页(如:博客、自媒体、贴吧、社区帖子):
是否能产出独具自
身特色或观点的内容,内容完整丰富,具有一定的阅读价值。
商品页:
是否提供了完整真实的商品信息,是否提供了可成功购买入口。如有产品评价
的内容会更好。
分类信息页:
是否提供了完整有效准确的信息(如黄页中的联系方式,地址,联系人,
公司,产品信息是否准确有效),并且没有过期。
下载页:
是否提供了下载的入口,是否有下载权限限制,下载的资源安全且真实。
3.2
网页内容质量现状与收录的权衡
根据2017年7月发布的第40次 《
中国互联网络发展状况统计报告
》:截止2017年月,
中国网站的总数已达 506 万个,半年增长率为 4.8%。中国网民规模已达到 7.51亿 。
目前,全网网页数量已接近万亿级别。网页内容的质量情况大体分布如下:
数据来自:360站长平台
通过数据我们可以知道:尽管网站、网页数量目前已经达到了一个惊人的数量级,但
优质内容仍然较为稀缺。互联网中大部分内容都属于质量一般的内容,还有相当一部分内
容是属于内容质量差的。因此,基于网页资源质量的实际情况,从用户需求和内容索引择
优的原则出发,并非所有网页都会被360搜索收录。
一些网站会通过权限,来限制用户访问页面。限制的类型往往有:要求用户安装插件或
软件,以及要求用户付费。
我们并不主张这种提高内容获取门槛的行为。对于一些非原创,非优质,来自于转载
并且可替代性很强的内容,用户在访问时还被权限限制的,360搜索会根据实际情况决定
其收录及排序。
但一些提供高质量、原创、正版内容的网站,在内容建设上投入了很大精力和成本。
用户在获取页面或资源时,会被要求安装软件和插件、甚至付费。此类情况多出现在一
些具有自制节目或购买了版权的视频站,以及一些提供专业文献检索的网站中。对于此
类页面,360搜索不会将其视为对用户不友好的行为。
注册和登录页面,其本身目的就是要求用户进行注册和登录,因此这种类型的页面不
会被归为“具有打开及获取权限的网页”。
以下是一些举例,供站长朋友们参考:
5.2 死链及失效页面
网站在运营的过程中,往往会出现死链和失效页面。我们在这里为大家罗列几种常
见的类型:
示 例
等级程度
说 明
页面的内容不完整,并且内容替代性很强,但仍然需要权
限才能阅读。
视频播放和下载时,被要求安装已经无法使用或非常冷门
的软件。
内容并非来自于网站自身的原创,互联网上存在大量可替
代的资源,但仍然要求付费才能下载。
可接受
某视频网站上的一部电影,普通用户只能看 5 分钟,完整
观看需要购买
VIP。网站在获得电影时需要支付很高的成本,
死链及失效页面对用户没有任何价值。网站中如果这一类型页面数量占比很大,会影
响到整个网站的收录与排序,请站长们务必重视!站长们可通过360站长平台,及时提交死
链进行删除。
站长们在设置页面死链的类型时,请严格按照规范进行设置。建议大家将死链优先设置为
“协议死链”的状态(即表格中第一种类型)。360搜索蜘蛛也会在重新抓取后识别出这些死
链,进而推送删除。
类 型
说 明
示 例
协议死链
内容死链
跳转死链
指通过 http 协议状态码,明确表示网页已经无法访问的页面
类型。常见的协议死链状态码包括:404、403、503、504
等状态。
跳转死链,是指一个页面内容失效之后,以 301、302 跳转
的形式,跳转到特定的死链特征页面上。例如这个跳转到了:
https://store.taobao.com/shop/noshop.htm
内容死链的产生,主要是由于网站自身内容变化引起。网页
可以正常打开,http 协议状态码为 200。常见的类型包括:
帖子被删除、内容已转移、空间被关闭、信息已过期、交易
已关闭等。
视频死链
视频页面中的视频主体不能播放,提示已经删除、已经下线等。
总结与建议
作为国内第二大搜索引擎,360搜索致力于为广大网民提供信息检索服务,并通过一
系列策略,努力将更多优质内容提供给用户,因此,我们希望能和广大站长朋友们携手,
一起更好地为用户服务。
总结《360搜索网页质量白皮书》(1.0 版本)的内容,我们向广大站长们提供以下建议,即
“一个避免、五项关注”:
避免针对搜索引擎的作弊和黑帽
SEO
手段。我们非常不提倡此类行为,轻者导致排序
降低,重者收录被拒绝;
关注用户需求的满足与用户体验。网站应该优先考虑用户的利益与需求,并同时提升用
户体验,而不是针对搜索引擎的单方面迎合优化;
关注高质量原创内容的产出,减少低质量内容在网站中的数量。网站的价值不是通过采
集等手段获得,而是通过自身的高质量原创内容,以合理的方式体现网站的特色,考虑站
点的短期收益,更重视站点的长远发展;
关注失效内容与死链的清理。及时处理网站中的失效数据、过期信息与死链,并及时提
交给搜索引擎进行删除;
关注网站安全与访问的稳定性。防范潜在的网站安全风险,保证网站的可用性和访问稳
定;
从百度点进来的,学习学习,呵呵!