资讯动态资讯动态

资讯动态

09
2024-09
搜索问答专场【四】“网站改版”常见问题解析
第四期,让我们从如何使用【网站改版工具】,网站改版的注意事项等方面,全面为大家解答“网站改版”的常见问题,解决大家的燃眉之急!一、简单介绍网站改版 1、Q:什么是网站改版?这篇文章提到的网站改版,不包含单纯的页面样式的改动,仅指原页面URL发生了改变,比如换域名、修改URL结构等。2、网站改版注意事项对于搜索来讲,不建议在网站改版过程中换域名或改动原来页面URL的,只要你这么做,网站展现和收录就可能会有影响,影响大小,主要看如何操作,简单介绍改版过程中的几个注意事项:① 再次强调,网站改版尽量别动URL,尽量一个页面对应唯一URL;② 新旧URL要有规则可循;③ 新旧URL做好301/302跳转,且建议一直保持关系;④ 新页面中替换指向旧URL的链接,尽量修改为指向新URL;⑤ 及时在【百搜索资源平台】-【网站改版工具】中提交改版规则;⑥ 检查新页面存在的死链,及时提交死链工具;具体注意事项可以参考:《网站换域名注意事项》 二、使用改版工具 1、Q:为什么要用改版工具?A:当一个站点的域名或者目录发生变化时,如果想让百度快速抓取变化之后的新链接、用以替换之前的旧链接,需要使用网站改版工具,加速百度对已收录链接的新旧替换,让搜索结果中更快的展现新链接。2、Q:如何使用改版工具?A:①换域名:仅域名发生了变换,而目录结构没有任何变化。可在网站改版工具的“添加改版规则”——“站点改版”处,添加改版前后的两个域名进行提交。注意:提交的前后域名必须不同。②目录结构改版:域名或目录结构发生了变化,如www.a.com/a变为www.a.com/b,或又如www.a.com/c变为c.a.com。可以在网站改版工具的“添加改版规则”——“规则改版”处,提交新旧目录正则式。正则式的书写方式详见“正则格式说明”③部分URL改版:当网站仅有部分URL发生了改版,或前两种方式提交的规则校验失败,可以通过提交url对文件更多了解网站改版工具可参考:《网站改版工具的使用规则》 3、Q:改版工具提交规则审核周期?A:一般72小时,如线上状态逾期一直提示“改版中”,您可在【资源平台】-【反馈中心】提交反馈咨询。三、网站改版工具的注意事项 1、Q:网站内容上的改版是否可以使用改版工具?A: 网站内容或页面结构的改版不需要使用网站改版工具,但是需要及时通过链接提交工具提交资源。2、Q:新旧内容跳转混乱,对网站改版是否有影响?A:有影响,无论是更换域名、目录结构,需要保障新旧URL有规律可循。3、Q:改版规则中新旧链接用什么方式进行跳转?A:新旧链接可以使用301/302跳转进行重定向。跳转关系尽量保持3个月以上。 4、Q:网站提交改版规则后,预计多久会生效?A:网站改版工具中改版生效时间范围为12-48小时,搜索结果中的新旧链接替换周期不确定,基于用户对页面的关注程度不同。5、Q:改版完成后可以立即清除跳转关系嘛?A:不可以,建议保持跳转关系至少三个月,直到新站流量完全稳定,网站避免出现校验失败原因中的问题。四、工具使用时的异常提醒 注:点击“处理状态”可以查看相关原因1、Q:提示“无需改版”A:网站改版工具适用于已被收录的改版前的旧链接,对于未收录的旧链接,无需提交网站改版加速替换。2、Q:提示“同时存在A规则与B规则中”A:说明当前提交规则中包含正在生效的规则(状态为改版中或改版完成),无需再次重复提交规则,建议更新新提交规则,或删除旧规则后重新提交。3、Q:提示“规则校验中”A:可能存在以下情况:①涉及的改版url较多,生效时间长,建议使用规则改版,否则可能影响改版正常校验任务。②改版规则混乱,一条链接同时存在于多个改版形式中,需自查规则,并删除改版文件,重新提交改版;4、Q:提示“部分改版中”A:可能存在以下情况:①跳转关系与规则不符:提交的规则必须是真实的url对跳转关系,否则不予通过。②出现多条链接跳转到一条链接的情况,建议检查http与https协议头跳转情况,或换用其他改版方式完成改版。5、Q:改版不生效的其他原因A:①域名对应关系错误,暂不支持主域改版的逻辑,需要每个子域名都单独提交生效;②301跳转关系不准确,如多条旧链接跳转到一条新链接,一条旧链接在不同时间内跳转到不同新链接等情况③旧网站存在死链情况,及时提交更新;网站改版其他参考文档 :(1)《网站改版的影响》 (2)《网站改版注意事项》 (3)《网站改版工具如何使用》
02
2024-09
搜索问答专场 【三】“搜索流量异常”常见问题解析
一、关注流量,了解工具【流量与关键词】1、Q:在哪里可以了解网站的流量变化?A:在搜索资源平台完成【站点验证】后,【百度搜索资源平台】-【搜索服务】-【流量与关键词】工具进行查询。2、Q:工具中出现的展现量、点击量、点击率、排名是计算的?A:展现量:搜索用户在百度搜索引擎查询某关键词时,看到您网站的次数;点击量:仅统计从百度搜索结果页点击进入您网站的次数;点击量不是UV。点击率:指点击量和展现量的比值。它在一定程度上体现了网站的可优化的空间,点击率越小,网站的可优化空间越大;排名:在“热门关键词”和“热门页面”列表中给出的排名是平均排名,体现在相应时间段内,搜索用户在查询某关键词时,落地页在百度搜索结果页的平均排名,是历史数据统计。该排名不代表当前线上排名。3、Q:流量查询工具能帮助解决哪些问题?A:【流量与关键词】工具,主要是为了全面帮助站长了解网站在百度搜索引擎中的表现,决策页面及网站的优化方向,为网站运营决策提供分析依据。① 可以提供网站的天级、周级及月度等不同周期的展现量、点击量数据,② 提供站点的热门关键词在百度搜索结果中的展现及点击量数据,最高可展现5W条关键词数据。4、Q:搜索资源平台中【流量与关键词】工具数据,与百度统计数据有什么区别?A:资源平台的【流量与关键词】数据与百度统计的数据是两份数据,存在不一致。【流量与关键词】工具,提供的是来自百度搜索的自然搜索结果中的点击量、展现量等,不覆盖阿拉丁合作数据等。百度统计,提供的是来自百度搜索的全UV和PV等,数据更详细。二、 关注流量变化可能存在几个误区:1、Q:“索引量下降了”A:索引量并不等于流量,所以在索引量异常变化和下降时,不一定会带来流量变化。(索引资源库会不定期的更新,对无用户需求的资源进行删除更新。)2、 Q:“流量工具今天没流量”A:搜索资源平台 -【流量与关键词】工具,是对搜索用户的历史数据的统计和展现,不是实时展现的,有可能存在数据延迟。3、 Q:“今天流量比昨天流量低了”A:搜索流量的变化趋势,参考长时间的流量变化情况,不要仅对比短期内差值,避免受到某些不定因素的影响,如某突发事件、异常关键词等某带来的流量峰值或谷值。一般可参考一个月/三个月或更长周期的流量变化情况。4、 Q:“xxxx之家流量平台上的流量下降了”A:查看百度搜索流量,建议通过搜索资源平台—【流量与关键词】工具查询数据。其他平台数据,统计或过滤策略等可能与搜索资源平台不同,我们无法给出分析和解读。三、如何快速自查流量问题1、自查网站运维情况① Q:网站服务器是否稳定?A:可以查看网站页面是否能稳定访问;可以通过搜索资源平台-【抓取诊断】和【抓取异常】工具进行辅助判断网站稳定抓取情况。② Q:是否存在封禁百度蜘蛛的情况?A:首先, 查看robots.txt文件,是否存在封禁记录。(一般robots.txt文件放置在网站根目录下。),之后,进一步排查是否存在封禁百度UA/IP情况。具体查看方案参考:《开发者如何解除封禁百度蜘蛛》 ③ Q:网站是否存在被黑、挂马等被恶意拦截?A:网站若存在被黑的情况,建议针对被黑页面做404处理,并及时通过【死链提交】工具提交更新死链数据。被黑操作指南参考:《网站被黑操作指南》 2、自查网站资源情况① Q:是否存在大量的页面死链或无效页面?A:针对该类无价值资源,建议及时404处理后,提交【死链提交】工具更新死链数据。② Q:近期是否存在改版或页面设置跳转的情况?A:可以关注改版或跳转前后链接的流量变化。③ Q:查找流量异常的特征页面?A:通过分析流量下降的关键词和url,自查分析资源类型的特征,若存在统一性,可以针对性的优化解决。优化方案参考:《百度搜索算法规范详解》 3、Q:流量下降可能存在哪些原因?A:网站采集痕迹明显,内容低质失效,广告干扰,内容标题堆砌,下载站内容不符合规范等,可参考搜索学堂相关规范:《百度搜索算法规范详解》、《网站违规内容》 四、其他Q:站点整改后流量会立即恢复嘛?A:恢复周期不固定。当网站存在违规情况,建议及时整改优化,完成整改后策略会自动判断,基于问题影响情况评估恢复周期,所以希望网站优质生产资源。Q:流量异常,自查后无法解决?A:可以通过搜索资源平台-反馈中心反馈问题。建议同时提供流量下降的关键词和资源链接,便于专业同学分析。
26
2024-08
搜索问答专场 【二】“站点Logo”常见问题解析
本篇问答内容只针对百度搜索资源平台的"站点Logo"权益哦!关于"百度搜索抓取站点Logo"情况的内容,后续将会专门讲解,开发者们可以密切关注搜索学堂呀~一、了解“站点Logo” 1、Q:什么是“站点Logo”?A:站点Logo是在百度搜索网站名称时,出现在网站名称下方的Logo标识,它有利于增强站点曝光,更好地吸引搜索用户。示例如下:2、Q:在百度搜索结果中展现“站点Logo”的方式?A:① 针对优质和权威性站点,搜索策略会不定期自动挖掘展现/更新站点Logo。② 已获得搜索资源平台—【站点logo】权益的站点,可以通过工具提交。二、教你如何获得“站点Logo”工具权益 1、Q:如何获得“站点logo”工具的提交权益?A:目前面向VIP站点开放,可以通过VIP俱乐部进行申请。2、Q:已申请资源平台—【站点Logo】权益后,是否可以继续申请其他权益?A:有多个工具权益需求时,针对符合条件的申请,会开通最先申请的权益。但,在获得其中一项权益后,至少间隔两周,才能申请和开通其他权益。3、Q:已获得的权益,会被收回吗?A:可能会的。策略会定期检测当前站点是否符合权益规范,针对不符合规范的站点收回相关权益。三、教你如何使用“站点Logo”工具权益 1、Q:“站点logo”提交图片要求?A:开发者们必须上传121*75、200*133两种尺寸的图片,以保证在搜索多场景中都能清晰显示。审核规范可以参考:《站点(Logo)审核规则》 2、Q:申请资源平台—【站点logo】工具权益时,只申请主域,全站都获得权益吗?A:不可以,工具的权益开通需要具体到验证站点的站点子域,不支持同主域下的全部开通。注:申请工具权益的站点,需要与小程序适配规则替换站点一致。3、Q:一个小程序关联多个站点,是否所有站点都可以获得权益?A:不一定,权益的发放是针对每一个站点是否满足条件,满足条件即可获得相关权益。4、Q:数据审核周期多久?A:一般会在15个工作日内完成审核,关注资源平台查看审核结论。5、Q:若域名更换, 资源平台的相关权益是否自动转移到新域名?A: 不会自动转移, 针对新域名需重新申请。6、Q:“站点Logo”权益可以申请取消权益吗?A:不可以,当前暂不支持该操作。
19
2024-08
搜索问答专场【一】“站点关联主体”常见问题解析
1、Q:为什么要进行主体关联? A:① 站点关联主体是网站资源进入百度搜索的一个必要环节。② 站点关联主体以及主体认证能够更好的验证站点的真实性,相较于ICP备案存在代备案、过期等问题,站点关联主体更可靠,能够更好的保障大家的权益。PS:站点关联主体,不直接影响当前网站的排名、展现、流量等。2、Q:网站拥有者和管理员都可以操作关联主体吗? A:必须是站点的拥有者。站点的拥有者将名下站点关联到对应主体下,拥有者可根据自身情况和需求,将站点关联到个人主体或非个人主体上。3、Q:资源平台的一个账号可以关联多少主体? A:一个百度账号仅能关联一个主体。4、Q:在资源平台关联主体后,可以解除关联吗? A:可以,但站点关联主体后7天内不可解除,请谨慎绑定。若需要删除已关联的主体,在搜索资源平台-搜索服务-站点属性-关联主体,右侧点击【移除主体】即可。如图:5、Q:若需要变更主体类型,如个人类型变更为企业类型,怎么操作? A:可以通过百家号平台进行变更。6、Q:当前账号无法关联新的主体? A:一个百度账号关联一个主体,若当前账号已关联主体,建议更换账号。7、Q:同一个账号下验证了多个站点,为什么不能关联在同一个主体下? A:同一账号下存在不同站点,仅支持一个主域关联一个主体。8、Q:站点关联主体可以提交几次? A:关联主体仅有5次审核机会,之后不能提交。若有关联该主体需求,可以尝试使用其他账号。9、Q:关联主体时,手机验证码发送失败,或手机号码丢失,无法进行验证? A:当前可能存在以下情况:① 可能当前手机服务或电脑网络不稳定,可以稍后重试。② 若持续出现验证码异常,可能存在百度账号策略拦截等情况,可以通过百度账号个人中心—【账号申诉】进行申诉咨询。
12
2024-08
百度搜索基础信息设置规范
对于开发者们而言,站点和智能小程序在搜索结果页的展现内容与形式,是吸引用户点击搜索结果访问站点的重要因素。百度搜索会基于网站和小程序的设置,提取对搜索用户有价值的信息展现在搜索结果页。为了帮助广大开发者在搜索结果中得到更好地展现效果,为搜索用户提供更为有效的页面信息,特发布《百度搜索基础信息设置规范》。需要注意的是,搜索结果页展现的信息一部分来自开发者提交,另一部分来自搜索策略的判断与抓取。本篇文档只针对搜索策略自动抓取网站和小程序信息,并在搜索结果页展现有价值信息的情况。以下标准适用于所有在百度搜索中展现的资源供给方,包括智能小程序和H5站点。一、首页基础信息设置标准 首页通常是是用户对该站点和小程序的第一印象,因此首页的基础信息设置十分重要。我们将从“标题、摘要、站点/小程序名称、Logo图片以及时间因子设置”五个方面来帮助大家正确地设置首页基础信息,实现最佳展现效果。1、标题(1)一致性:源码中标题、落地页内的实际标题,需与备案时填写的网站名称保持一致。负面示例↑:源码中的标题与首页实际标题不一致。(2)准确性:页面标题应准确概括页面内容,避免使用模糊和不相关的描述。(3)清晰简洁:页面标题应简明扼要,避免使用冗长的标题,避免关键词堆砌。负面示例:标题冗长,关键词堆砌。(4)首页标题格式:首页标题命名可以参考"站点名/品牌名—首页/官网/slogan"的格式,修饰词建议不多于3个。注意:此类页面的核心词为品牌词/网站名称,修饰词包括官网、官方网站、首页、主页、Home、网站的slogan、站点父品牌词等。正面示例↑:京东的首页标题格式“站点名—官方网站”。注意:更多关于标题的规范可参考《百度搜索网页标题规范》文档。2、摘要(1)摘要应是对站点核心内容或服务的概述,避免出现广告营销信息和其他无关内容。(2)摘要内容表达清晰,无阅读障碍,避免出现乱码。负面示例↑:摘要内容中含有乱码信息。(3)摘要字数50字左右为宜。正面示例:摘要准确概括站点内容,表达清晰,字数适宜。3、站点/小程序名称注意:开发者千万别混淆了什么是名称和标题哦~标题是对网页内容的准确且简明扼要的描述。在搜索结果页中直接展现,是吸引用户点击搜索结果进入落地页的关键因素。站点/智能小程序名称是指一个网站/智能小程序的名字,起到区别不同网站/小程序的目的。在搜索结果页中,名称展现在左下角,更直观地体现了内容来源,加强了搜索用户对内容来源的信任度、对站点品牌的记忆度。(1)一致性:源码中的Tagtitle、Description中的站点名称应一致,且都与落地页内的实际的站点名一致。负面示例↑:站点页面内没有明显的站点名称和Logo信息,源码中里的站点名称是「湿地中国」,与落地页实际的站点名不一致。(2)站点名称命名规范:①站点名称应辨识性高,尽量体现站点的唯一性,避免较宽泛、无辨识性、大量重复的站点名称。负面示例:站点名称使用“星座命理、算命”等较为宽泛,无辨识性的词语。②站点名称应避免出现以下恶劣问题,百度搜索将会对这类结果做相应的搜索结果展现限制。站点名称应避免侵权问题。错误示例如:Nike002。站点名称不允许包含赌博、传销、淫秽色情、暴力、讨债、恐怖以及其他违法内容。站点名称应遵守《中华人民共和国广告法》相关规定,避免出现【最专业】、【最权威】等词汇,易影响用户感知。错误示例如:最权威摄影大全 。站点名称不应包含营销信息及任何联系方式,例如手机号、微信号、网址营销信息等;不允许涉及广告营销意图词汇,如[钜惠]、[总代]、[招商]、[微商]、[网赚]等词汇。错误示例如:VX17600XXXX67、网赚大全。站点名称不建议包含个人信息或者是个人称呼。错误示例如:百度刘烨、我的技术分享。(3)智能小程序名称命名规范:①小程序注册时需要填写3~30 个字符的名称,名称仅支持使用中文、数字、英文,不能使用特殊符号、繁体字或以纯数字结尾。②小程序名称需保证其在所在领域具有唯一识别性和客观性,禁止侵权,禁止具有夸大性、广告营销信息、认证性和误导性的名称,如:最高级、第一、首个、最便宜、全网销量第一。③名称不能含有“APP”、“小程序”、系统终端如“安卓 / iOS / PC版”等词语。注意:详情请参考《智能小程序注册名称规范》。 4、站点Logo图片:(1)Logo图片建议统一放在站点页面的左上角位置,便于百度策略识别与抓取。(2)Logo图片尺寸满足200*133以上,画质清晰,主题突出。(3)Logo图片设计配色美观,且应为非透明图,避免前端展现异常。正面示例↑:站点Logo图放在页面左上角,尺寸符合标准,画质清晰,且非透明图。5、时间因子落地页时间因子是百度搜索判断资源收录、展示、排序结果的重要参考依据,落地页如果存在页面时间标注不清、页面无时间等情况,不但对用户浏览体验不友好,且不利于优质站点和小程序的搜索展现效果。因此开发者们必须参考《百度搜索落地页时间因子规范》,准确提交时间因子格式,得到好的展现效果。对于具有多种内容,多种链接,内容更新较快的首页,开发者们应该提供最新的更新时间。注意:这里提及的首页不但包含主要网站和小程序首页(如新浪首页、网易首页)、还包含分频道首页(如新浪体育频道)等。首页类型页面样式举例建议时间网站首页企业官网 提供该列表所有内容中的最新更新时间(update)分频道首页新浪体育、网易科技 二、内页基础信息设置标准 1、标题①站点和小程序的页面标题应与正文内容的真实标题保持一致,且可通过标题判断内容来源主体。负面示例↑:该网页标题是帮助中心-XX商城;页面内容真实标题:退款多久可以到账;因此网页标题应更为:退款多久可以到账-帮助中心-XX商城(XX商城不可省略)②站点页面标题同样应符合《百度搜索网页标题规范》文档的标准。2、摘要站点页面内容的摘要与上述首页摘要的标准保持一致,应该是对该页面正文核心内容的概述,表达清晰,无阅读障碍,避免出现乱码、广告营销信息以及其他无关内容,且摘要字数在50字左右。正面示例↑:摘要表达清晰,对正文内容简要概括。3、内容(1)页面中的重要内容信息尽量用文字形式呈现,不建议仅以图片形式呈现,易影响搜索对落地页内容的准确判断。负面示例↑:页面内容完全通过图片形式呈现,会影响搜索对内容准确度的判断和识别。(2)页面中如果有多个主题,建议分别建立页面,避免同一页面堆砌多个不同主题的内容;或者开发者们可以在该页面增加目录和锚点帮助用户快速定位到用户需求的内容。反面示例↑:该页面主题是"faq",但用户的需求通常为其中的一个问题,该页面有多个子主题的内容时,建议按子主题建立独立页面或在该页面增加目录和锚点。4、正文配图(1)配图应该保证与文字内容或者视频内容之间是高度相关的,避免图文不符的情况出现。(2)同一页面内图片的类型、格式、大小应保持统一,主题风格前后一致,给用户以一体的感觉,不能存在重复、无效的图片。(3)配图尺寸满足200*133以上,画质清晰,不存在明显边缘、拉伸或者压缩的情况。(4)配图中的人物或其他主体元素无截断问题,配图不存在马赛克、水印、色块、无关表情、logo等杂质信息。(5)若配图为文字类、拼接类、标注类、内容型截图等特殊图片,则应保证图片内容完整,无明显影响体验的问题。(6)配图应合法合规,不允许出现纯广告图、色情低俗图或其他令人不适的图片。负面示例↑:正文配图与落地页正文内容无关,且为低质文字拼接类图片,有水印信息。5、时间因子设置除了首页之外,内页的时间因子设置也十分重要。内页的时间因子设置分为列表页和详情页,开发者们需要根据不同的页面类型,优先提交不同的更新时间。列表页类型页面样式举例建议时间小说/视频 封面页斗破苍穹、急诊科医生 提供该列表所有内容中的最新更新时间(update);如果有发布时间,建议补充专题页发布时间(pubdate);*更新时间(update)为必填时间搜索/筛选结果页58狗粮筛选、京东s8筛选 贴吧/blog/直播等个人首页吧首页 专题页十九大专题 详情面类型页面样式举例建议时间文章详情页新闻文章、菜谱介绍 优先提供内容的发布时间(pubdate)如果内容有更新,需补充内容更新时间(update)*发布时间(pubdate)为必填时间;时间精确到分钟级视频播放页急诊科医生 商品/产品/黄页/供求页商品、供求页 公司介绍页公司介绍页面、公司信息 问答详情页面有问有答的详情页,如:百度知道、知乎问答 提供问题发布时间(pubdate)第一个回答发布的时间(update)最新回答时间(lrDate)*三个时间都为必填时间论坛详情页面论坛帖子页,如,贴吧、天涯等提供帖子发布时间(pubdate)第一个回答发布的时间(update)最新回帖时间(lrDate)*三个时间都为必填时间6、避免不规范的信息设置同时我们发现部分开发者利用不规范设置标题、摘要、时间因子等信息,扰乱搜索秩序,侵害其他优质开发者的权益的现象。百度搜索团队将会持续针对这类作弊违规行为进行识别和控制,限制违规站点的搜索展现,维护搜索的公平公正,保护优质开发者的权益。三、重点知识总结
29
2024-07
百度搜索页面质量标准
在本篇文档中,我们对提供内容的页面制定了清晰明确的优质标准,希望帮助广大开发者生产符合百度搜索优质标准的内容。 1、图文类内容的优质标准:(1)文字的字体、字号与间距需要适配网页,文档分段合理,结构有序,阅读体验舒适。(2)在文章中使用小标题准确概括段意,通过加粗、变换颜色等方式凸显文章的重要观点和中心思想,使用户更易获取和理解文章内容。(3)保证图片和文字之间是高度相关的,不能有图文不符的情况;且图片使整体内容更加生动明了,能够有效帮助用户理解内容,降低用户的理解成本。(4)图片画质高清,图片质量上佳,经过滤镜、特效、拼接、加艺术字等后期处理,使用户心情愉悦,文章更具观赏性(5)除了具有年代感的老照片,其他正常图片均不能存在模糊、变形、截断、白边、明显水印杂质等情况。正面示例↑:文章使用小标题,凸显中心内容;图片精美,配合文字,给予用户愉悦的浏览体验。2、视频类内容的优质标准:(1)视频画质高清,保证720P分辨率或以上;播放流畅,音画同步,在播放中没有噪音、卡顿、水印、晃动等质量问题。(2)视频的播放窗口需要同时可适配WISE端和PC页面。(3)视频主体内容无任何遮挡,水印或者logo图片可显示在视频窗口四角区域,但是比例不宜过大,不能遮挡视频主体区域。(4)在播放时,字幕与视频内容及播放进度应该保持同步,没有错字、漏字等情况出现;如果是配音视频或者外文视频,则必须配有字幕辅助用户观看。正面示例↑:视频画质高清,播放流程,音画同步,设有字幕,主体内容无任何遮挡。优质内容特征 优质的内容会有一些共同的特质,如果您的内容能够满足以下任一优质特征,会为用户带来更多增益价值。1、丰富有深度:内容信息含量大,具有一定的专业深度,讲解透彻,深度聚焦,可以为给用户提供全面的分析和阐述;页面结构优质,编排精美,图文并茂,能够给用户带来有价值的内容解读。正面示例↑:内容丰富,深入解析;排版精美,结构清晰。2、生动有趣:对于专业类和科普类的内容,应表达清晰,生动形象,可以同时也会通过图片&动画等形式辅助用户理解,使内容通俗易懂。3、真实鲜活:内容是用户个人亲身体验的经历,更具鲜活感,且经过精心编排,段落清晰;这类内容可以在众多的PGC内容中脱颖而出,让读者更有亲近感。正面示例↑:内容真实,攻略丰富,图片精美。不同场景下的页面优质标准 为了帮助各位开发者能够更加清晰地理解不同类型内容的优质标准,我们特地根据不同的场景和资源类型进行拆解,提出了更加具体清晰的优质标准。1、评测类&探店类内容(1)含义:针对某一类产品或服务(电子产品、化妆品、生活用品、店铺&服务等)的使用体验,结合亲身经历,对评测内容进行详细的介绍和说明,并提供客观真实的评测结果,让用户对该评测内容有一个全面深入的了解。(2)优质标准①评测类内容:封面给出评测主体,让用户对评测内容一目了然;添加精美图片,补充产品/服务信息;评测内容客观真实,全面深度、有对比结论。②探店类内容:图片精美,为用户带来极佳的视觉享受;探店类内容应该有明确的店名与地址,评测的菜品丰富多样。2、科普类&解读类内容(1)定义:针对某一现象/热点/事件/人物进行深入的科普和解读,对事物和观点进行多维度阐述或者垂类纵深解读,能让用户快速理解事情发展。(2)优质标准①文章信息丰富,具有一定的专业深度,讲解透彻,对事件进行全面的分析和阐述,可以给用户一定的指导和参考。正面示例↑:文章排版优质,内容方面详解了教育减负的含义,原因以及好处,讲解透彻,通俗易懂。②在内容完整,表达明确的基础上,可以做到讲解生动形象,新颖有趣,使用户更易理解内容。正面示例↑:视频画质高清,生动形象地对昆仑山从神话、古代事件、地理位置、山脉详情等多方面进行了详细介绍。3、步骤类&操作类内容(1)含义:针对美食制作或者软件使用等指导类内容,给出详细易懂的操作说明,并且对关键点和注意事项给出清晰详细的解释,使用户可以简单直接地学习,降低理解成本。(2)优质标准①当主体内容对图片的依赖较高时(如菜谱、手工制作、急救手法等),需要保证每一个步骤都有相应的配图或者视频,避免用户出现操作失误的情况。②步骤清晰有序,实操性强,且能给出注意事项和一些步骤这样做的原因。③配图高清优质,与主体内容相互对应,能够有效指导用户操作。正面示例↑:配图比较高清优质,步骤清晰有序,实操性强。4、官网(1)含义:指政府机构、社会组织、团队、企业或者个人在互联网中所建立的具有公开性质独立网站。(2)优质标准①官网页面风格一致,有明显的设计感,给用户极佳的视觉效果。②交互设计符合用户日常使用习惯,简单方便;落地页适配PC端和移动端。③内容信息丰富,对产品或者服务的功能介绍详细且丰富。正面示例↑:官方页面设计高端,图片清晰,内容丰富,介绍了多类热门产品。5、功能页(1)定义:主要指列表页或者详情页,用户需要在该页面上获取信息并进行操作的页面。(2)优质标准①列表页内容丰富:页面主体内容丰富,配有推荐、运营活动、标签等参考信息,排版合理,可以清晰地将内容呈现给用户。愉悦浏览:页面内容排版美观,格式统一;图片画质高清,配色优美;内容契合页面主题,给用户极佳的浏览体验。交互流畅:列表页的交互设计合理,用户可以快速直达目标页面或使用功能,操作简易,回退自如,避免繁琐步骤或重复点击等行为。正面示例↑:列表页排版美观,格式统一,信息完整清晰,有大量的标签信息给用户提供参考。②商品页信息全面:商品图片优质,能够从多个角度展示商品详情,让用户更加了解商品细节;商品介绍维度齐全,页面的主要信息详细完整,表达明确,满足用户的主要需求。评论互动:评论区内容丰富,有大量真实用户的反馈,言语有参考价值。交互流畅:功能必须实际可用,操作友好便捷,符合用户习惯,保证购买、聊天、添加购物车等操作流畅无卡顿。正面示例↑:商品图片丰富,信息全面;评论区有标签分类和好评度为用户提供参考,评论真实可参考。常见的低质问题示例 在内容生产时,我们不仅倡导大家积极生产提交优质页面,也希望大家规避低质问题,这些低质内容严重影响了用户的搜索浏览体验,损害搜索内容生态健康。以下为部分常见低质问题示例,严重作弊类问题可参考《百度搜索算法详解》。1、内容低质无价值内容排版混乱,用户获取信息困难;内容低质无意义,无价值,存在错误、夸大、不实等问题;页面缺失关键内容。2、低质问答页:问答内容无价值在问答页中,回答的内容不能完全满足提问者的问题;或者是回答的内容完全和问题无关,对用户无帮助。3、低质列表页:相关性低列表页内容与用户需求的内容相关性低,不能很好地满足用户需求。列表页包括搜索结果页、标签页、专题页等页面。负面示例↑:用户查找的query是“快递几点下班”,搜索结果全部不相关,对用户毫无价值。4、过期信息商品、求职、供求类页面因信息过期导致对应交易行为已不存在或者用户无法进行操作。比如:交易类商品购买页,显示商品下架、无货、已售空等信息;招聘类页面已停止招聘但是未下掉过期信息。5、死链协议死链:无法打开页面,直接跳转显示为404、403、503等状态。内容死链:正常打开页面后,内容显示为不存在或者已删除。注意:死链对用户体验和站点质量都会产生负面影响,请开发者们参考《死链介绍及设置方法》及时登录百度搜索资源平台,使用【死链提交】工具,提交死链数据。负面示例↑:无法打开该页面。负面示例↑:打开页面后,显示内容已被删除。6、标题质量差标题与实际内容不一致,例如标题含“txt下载”实际内容中没有资源下载 、标题含“附图”实际内容中没有图片、标题中含“40首大全”实际内容不足40首。7、低质采集内容中有轻微采集痕迹,但不影响主体内容的阅读。负面示例↑:内容中有采集痕迹,但不影响用户获取信息。
15
2024-07
百度搜索移动视频站点体验规范
随着移动互联网的迅速发展,搜索视频需求与日俱增,视频资源质量良莠不齐。为了保障行业生态健康以及搜索用户体验,现将移动视频行业体验规范整理如下,希望同广大优质视频行业站点共创和谐视频行业环境,为搜索用户提供更便捷、顺畅的观看体验。同时,我们也将为符合搜索规范的站点提供更加快速、稳定的收录权益。为保障行业生态健康以及搜索用户体验,现将移动视频行业体验规范整理如下,请各资源方参考提升自身资源体验价值,以吸引搜索用户持续使用。一、 本次体验规范面向的行业 移动视频站二、规范细则 1、落地页加载、跳转体验规范(1)落地页加载流畅。(2)落地页可稳定打开,不可存在域名失效问题。(3)落地页可稳定加载,不可存在无法加载、白屏问题。(4)落地页内不可存在强制跳转端外落地页问题。(5)落地页内不可存在导流到其他平台问题。符合标准案例2、资源真实、有效性规范(1)搜索标题需和页面内容一致,不可出现搜索标题呈现与点击后内容不符的情况。(2)禁止点击后跳转恶意落地页,不相关落地页。(3)落地页内视频均可正常播放且播放流畅。(4)落地页内视频不可存在无法播放、无视频资源、白屏问题。(5)落地页内视频不可存在跳转端外视频播放问题(调起优爱腾等)。(6)资源均可正常播放,不得存在无法播放或者播放时显示不存在视频资源的情况,资源失效需主动上报死链。3、落地页广告规范百度APP端内落地页需为纯净页面,不得放置广告。4、其他内容规范(1)禁止出现国家违禁内容。(2)禁止侵犯国家利益信息。(3)禁止低俗违禁内容。(4)禁止虚假诱导内容。(5)禁止透露隐私信息。三、有机会得到的扶持 对于符合本规范的站点,可以通过百度搜索资源平台普通收录工具及时提交优质资源。平台会依据算法策略评估内容质量、站点体验、需求满足度,在影视动漫垂类下对部分优质站点授予快速收录权限。得到权益的站点请遵循以下原则:(1)提交资源不违反体验规范原则,优先提交资源播放页及热门资源。(2)网站出现失效链接后主动提交死链,缩短线上死链屏蔽时效。(3)网站域名失效后及时上报并提供替换域名。四、什么情况下取消扶持 对扶持的站点,平台会不定期检测站点质量,如果出现以下体验问题将会取消扶持:(1)搜索标题前期符合抓取规范,收录某周期后检测违反此规范。(2)某周期后检测偏离端内落地页、内容优质体验规范。(3)某周期后检测违反资源类规范且网站无替换更新内容。(4)出现白屏、死链无替换、域名失效无替换问题。(5)端内落地页涉及任意形式违禁类内容、违禁类广告。(6)违反用户支付行为,无法保证用户交易安全。
01
2024-07
移动网站如何快速向百度提交数据
随着网民对于移动化趋势的加强,移动端流量获取成为了网站的重中之重。现在主流的数据提交方式共有以下三种:1、跳转适配:该方法会利用单独的网址向每种设备提供不同的代码。这种配置会尝试检测用户所使用的设备或ua,然后使用 HTTP 重定向和 Vary HTTP标头重定向到相应的页面。2、代码适配:该方法使用相同的网址(不考虑用户所使用的设备),但会根据服务器对用户所用浏览器的了解(ua),针对不同设备类型生成不同版本的HTML。3、自适应:通过同一网址提供相同 HTML 代码的网站设计方法。该方法不考虑用户所使用的设备(pc、平板电脑、移动设备),但可以根据屏幕尺寸以不同方式呈现(即适应)显示屏。我们知道,百度发现我们网站内容的方式有那么几种:1、通过百度蜘蛛自动抓取,这种方式是最传统和原始的方式。这其中当然还可以使用robots协议引导蜘蛛到sitemap文件内,使其加速抓取网站内容。不过归根结底,该种方式还是向提示蜘蛛来抓取,具体的抓取我们无法判断。而且还要看蜘蛛对于该站的抓取频率问题。2、通过百度站长工具,将数据主动提交给百度,该种方式能有效的提高百度蜘蛛抓取数据的效率,也是我比较推荐的站长们应该使用的数据提交方式。百度站长工具提交数据的方式主要有以下两种,下面我们就针对移动网站,来讲解一下这两种方式。第一种方式:API推送第二种方式:sitemap提交一、API推送 API推送是最为快速的提交方式,将站点当天新产出链接立即通过此方式推送给百度,可以保证新链接可以及时被百度收录。如何使用API推送功能1,需要网站制作数据推送接口,进入主动推送工具后,会看到接口调用地址的token,token是由16个英文数字组合的字符串2,下面提供一些推送示例1)curl推送示例将要提交的url数据写入一个本地文件,比如urls.txt,每个url占一行,然后调用curl命令:curl -H 'Content-Type:text/plain' --data-binary @urls.txt"http://data.zz.baidu.com/urls?site=www.example.com&token=edk7yc4rEZP9pDQD"使用php、python、java等可以参照这个过程推送结构化数据。2)post推送示例POST /urls?site=www.58.com&token=edk7ychrEZP9pDQD HTTP/1.1User-Agent: curl/7.12.1 Host: data.zz.baidu.com Content-Length: 83http://www.example.com/1.htmlhttp://www.example.com/2.html3)php推送示例$urls = array('http://www.example.com/1.html','http://www.example.com/2.html',);$api = 'http://data.zz.baidu.com/urlssite=www.58.com&token=edk7ychrEZP9pDQD';$ch = curl_init();$options = array(CURLOPT_URL => $api,CURLOPT_POST => true,CURLOPT_RETURNTRANSFER => true,CURLOPT_POSTFIELDS => implode("\n", $urls),CURLOPT_HTTPHEADER => array('Content-Type: text/plain'),);curl_setopt_array($ch, $options);$result = curl_exec($ch);echo $result;4)ruby推送示例require 'net/http'urls = ['http://www.example.com/1.html', 'http://www.example.com/2.html']uri = URI.parse('http://data.zz.baidu.com/urlssite=www.xxx.com&token=eTk7ychrWZP1pDQD')req = Net::HTTP::Post.new(uri.request_uri)req.body = urls.join("\n")req.content_type = 'text/plain'res = Net::HTTP.start(uri.hostname, uri.port) { |http| http.request(req) }puts res.body二、移动Sitemap百度推出了移动Sitemap协议,用于将网址提交给移动搜索收录。百度移动Sitemap协议是在标准Sitemap协议基础上制定的,增加了标签,它有四种取值: :移动网页 :移动网页:自适应网页:代码适配百度移动Sitemap协议的写法这里关于传统PC站的sitemap写法就不说了。1、向百度提交移动网页的sitemap协议写法样例: http://m.abc.com/index.html 2009-12-14daily0.8 2、向百度提交自适应网页的sitemap协议写法样例: http://www.abc.com/autoadapt.html 2009-12-14daily0.8 3、向百度提交代码适配网页的sitemap协议写法样例: http://www.abc.com/htmladapt.html 2009-12-14daily0.8 按照移动Sitemap协议做好Sitemap后,在Sitemap工具点击添加新数据提交,与提交普通Sitemap方式一致。
24
2024-06
移动适配工具全解析
近日很多站长反馈,在使用移动适配工具后站点已经开始受益,提升效果较好;同时考虑到站长的使用体验,在《大咖在线》中从移动适配工具的角度进行QA交流,反响很不错。今天我们从新整理了大家关注的知识点,希望能让更多站点受益。一、为什么要使用移动适配工具 目前跳转适配方式共有三种方式,移动适配工具、自适配和meta标签。相比其他两种方式,站长通过移动适配工具提交pattern级别或者url级别的PC页与手机页对应关系,若可以成功通过校验,将有助于百度移动搜索将移动用户直接送入对应的手机页结果。二、什么网站适合使用移动适配工具? 1、做了PC站且网页搜索收录、排序效果较好的站点2、PC站点较复杂站点,且与移动站的页面有一一对应关系三、没有使用移动适配工具,但是使用了自适配或者meta标签是否可以? 1、百度同样可以识别到,但是如果站点数据出现问题,使用移动适配工具可以方便百度工程师追查站点问题,如使用其他方式追查会非常困难。2、使用移动适配工具,识别速度快,效果更好;四、移动适配的生效时间? 提交移动适配工具后,百度搜索资源平台会对提交的移动适配数据进行校验;当认为实际情况与提交的情况相符时,才会对适配数据进行生效处理,这个校验时间大约为10天,生效时间为1-2天。五、如何判断移动适配是否已经生效? 工具状态:适配成功;在搜索资源平台—移动适配工具里,选择主域,图示中两条线趋近于重合,即适配效果好;六、移动适配工具使用中,提倡的做法有哪些? 1、PC站和移动站的对应页面主体内容必须是一一对应;2、移动站和PC主域相同,或主干相同,不建议在pc站点开辟二级目录作为移动站;3、如果同时使用移动适配工具、META标签、自主适配——三种方式,逻辑关系保持一致;4、推荐使用规则适配,提交多条规则,正则的粒度越细越好;5、不管使用哪种方式,适配成功后都要持续保持PC页和移动页的对应关系;七、移动适配工具使用中,百度不建议的做法有哪些? 1、PC页面和对应的移动页面主体内容不能多对一,需要适配的页面不能内容过少、为空或者无法访问;2、移动站站不建议使用PC站点中的二级目录,也不建议使用域名主干不同的域名;3、使用robots封禁Baiduspider将导致百度无法识别对应关系;4、移动页面避免使用ajax等异步加载的方法加载内容主体;5、移动页面避免需要权限才能浏览主体内容;八、正则式使用中,常见的问题有哪些? 1、正则规则书写或选用错误,详见《正则格式说明》;2、正则规则与提交验证的URL规则不符,详见《正则格式举例说明》;3、提交验证URL有误,重新确认URL;九、使用规则适配的过程中 :(\w+)与([a-zA-Z]+) ,(\d+)与([0-9]+) 有啥区别? (\w+)与([a-zA-Z]+) ,(\d+)与([0-9]+) 所代表含义不同,如下图:十、移动适配提交不成功? 1、提交移动适配的主域与正则中提交的URL不同;2、正则规则与提交验证的URL规则不同十一、之前适配文件的状态是“适配成功“,后改为失败 1、适配成功后,PC站点或移动站点结构发生变化,无法做到一一对应;2、 PC页面与移动页面的主体内容发生较大变化,无法做到一一对应;3、页面大量死链,或被设置了访问权限;
10
2024-06
【开发者必看】死链介绍及设置方法
一、死链介绍 什么是死链?几乎所有的智能小程序或站点都会遇到内容失效、过期,页面不需要再展现的情况,这些无法对用户提供任何有价值信息的页面就是死链接,它包括协议死链和内容死链两种形式。为什么要及时处理死链?当站点/小程序死链数据累积过多并且被展示到搜索结果页时,会影响百度搜索对站点/小程序的评价,对站点/小程序的访问体验和用户转化都会起到负面影响。另一方面,百度检查死链的流程也会为站点/小程序带来额外负担,影响对其他正常页面的抓取和索引。二、百度搜索建议的死链类型及设置方案 常见的死链包括协议死链(百度搜索建议的死链类型)和内容死链,还有一些对百度并不友好的“个性化死链”。协议死链:页面的TCP协议状态/HTTP协议状态明确表示的死链,常见的如404。内容死链:服务器返回状态是正常的,但内容已经变更为不存在、已删除或需要权限等与原内容无关的信息页面。在此,百度搜索建议的死链设置方案为:第一步,将返回码设置为404:如果站点/小程序已永久删除相应内容,并且不打算对内容进行替换,建议开发者将返回码设置成404,百度爬虫尝试抓取网页时,如果返回码为404,会将URL判定为死链,进而从搜索中删除第二步,设置完返回码后,修改页面标题,明确表示该页面为死链,页面内容可以进行个性化设置。对百度搜索不友好的死链类型及不推荐的死链方案:1、个性化死链部分开发者追求个性化和用户体验,在页面内容失效后并未做协议死链处理,也就是说返回状态码依然是200,仅仅是在页面上做了一个有趣的个性化图片,通过图片告诉用户这个页面没有有价值的内容,这类死链是百度搜索不提倡的。2、页面内容为死链但是返回码为2003、页面重定向到首页、错误页面、登录页面例如:页面A内容已经失效,用户点击页面后,页面跳转到了站点首页。不推荐的死链设置方案可能会使搜索引擎造成混淆,使得站点的无效内容在搜索结果中展现,最终影响站点的排名和评价。三、如何处理死链 【站点】第一步,筛查站点内部存在的死链,制作死链文件,并将这些死链页面设置成为404页面,即百度访问它们时返回码为404。将需提交的死链列表制作成一个死链文件,制作方法请参阅帮助文档(与sitemap格式及制作方法一致)第二步,将死链文件放置在网站根目录下比如您的网站为example.com,您已制作了一个silian_example.xml死链文件,则将silian_example.xml上传至网站根目录即example.com/silian_example.xml。第三步,登录百度搜索资源平台-死链提交工具提交死链数据(1)通过搜索资源平台-搜索服务-资源提交-死链提交,到达操作页面;(2)填写死链文件更新周期,可选“每隔xx小时/天更新一次”;(3)填写死链文件地址,请留意提交框右侧的配额提示;(4)管理已提交的死链列表,可查看死链文件状态和死链处理状态。特别提醒:1、在提交死链时,要保证所有页面都处于404状态,提交文件中请勿包括活链URL,如有活链会导致活链URL从搜索中移除。2、索引型死链Sitemap文件工具将不予处理,请勿提交索引型死链Sitemap文件。【小程序】整理出需要删除的资源path路径,通过智能小程序开发者平台-自然搜索-资源删除工具进行提交。特别提醒:1、死链文件每?一条path路径,?件支持txt格式,每个文件最多允许1000个path路径,且需小于10MB;2、为避免影响小程序已获取的流量,每天最多可上传10个文件。附录:常见的死链返回码:404 Not Found,表示服务器没有找到任何匹配请求URL的东西,没有说明这种情况是暂时的还是永久的。410 Gone,表示请求的内容在服务器上不再可用,且没有已知的转发地址。410通常表示资源永久性的失效。正常页面返回码:200OK,表示请求成功。如果相关内容已删除或移动,不建议返回成功状态码(200 OK)而是返回404、410状态码。204 NoContent,表示这个请求没有要发送的内容,但是报头可能有用。用户代理可以使用新的报头来更新此资源的缓存头。如果页面已经删除,请返回404/410,返回204可能给搜索引擎造成混淆。其他返回码:如果正常页面长期返回非2xx、3xx的错误码,可能会影响相应内容的收录和搜索展现。常见的错误码如下:403Forbidden,表示客户端没有获取内容的权限。429 Too ManyRequests,表示用户在给定时间内发送了太多的请求。500 Internal ServerError,表示服务器遇到了不知道如何处理的情况。503 ServiceUnavailable,表示服务器还没有准备好处理请求。通常的情况是服务器超载或者正在维护。如果由于抓取频次过高导致429、5xx错误,开发者可以在百度搜索资源-抓取频次-抓取频次上限调整页面对百度爬虫的抓取频次进行设置。
03
2024-06
轻松两步,教你快速识别百度蜘蛛(User-Agent)
经常听到开发者问,百度蜘蛛是什么?最近百度蜘蛛来的太频繁服务器抓爆了!最近百度蜘蛛都不来了怎么办?还有很多站点想得到百度蜘蛛的IP段,想把IP加入白名单,但IP地址范围动态变化不固定,我们无法对外公布。那么如何才能识别正确的百度蜘蛛呢?今日干货带你轻松两步正确识别百度蜘蛛:一、查看UA信息如果UA信息不对,可以直接判断为非百度搜索的蜘蛛。目前UA分为移动、PC、和小程序三个应用场景,这三个渠道UA分别如下:移动UA:Mozilla/5.0 (Linux;u;Android 4.2.2;zh-cn;) AppleWebKit/534.46 (KHTML,like Gecko)Version/5.1 Mobile Safari/10600.6.3 (compatible; Baiduspider/2.0;+http://www.baidu.com/search/spider.html)或Mozilla/5.0 (iPhone;CPU iPhone OS 9_1 like Mac OS X) AppleWebKit/601.1.46 (KHTML, like Gecko)Version/9.0 Mobile/13B143 Safari/601.1 (compatible; Baiduspider-render/2.0;+http://www.baidu.com/search/spider.html) PC UA:Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)或Mozilla/5.0 (compatible; Baiduspider-render/2.0; +http://www.baidu.com/search/spider.html)小程序UA:Mozilla/5.0 (iPhone;CPU iPhone OS 9_1 like Mac OS X) AppleWebKit/601.1.46 (KHTML, like Gecko)Version/9.0 Mobile/13B143 Safari/601.1 (compatible; Baiduspider-render/2.0;Smartapp; +http://www.baidu.com/search/spider.html)二、双向DNS解析认证第一步:DNS反查IP开发者通过对日志中访问服务器的IP地址运行反向DNS查找,判断某只spider是否来自百度搜索引擎,Baiduspider的hostname以*.baidu.com或*.baidu.jp 的格式命名,非*.baidu.com或*.baidu.jp即为冒充。根据平台不同验证方法不同,如linux/windows/os三种平台下的验证方法分别如下:1)、在linux平台下,您可以使用host ip命令反解ip来判断是否来自Baiduspider的抓取。2)、在windows平台或者IBM OS/2平台下,您可以使用nslookup ip命令反解ip来 判断是否来自Baiduspider的抓取。打开命令处理器 输入nslookup xxx.xxx.xxx.xxx(IP地址)就能解析ip,来判断是否来自Baiduspider的抓取。3)、在macos平台下,您可以使用dig命令反解ip来判断是否来自Baiduspider的抓取。打开命令处理器输入dig -x xxx.xxx.xxx.xxx(IP地址)就能解析ip,来判断是否来自Baiduspider的抓取。第二步:对域名运行正向DNS查找对第一步中通过命令检索到的域名运行正向DNS查找,验证该域名与您日志中访问服务器的原始IP地址是否一致,IP地址一致可确认spider来自百度搜索引擎,IP地址不一致即为冒充。示例1:> host 111.206.198.69 69.198.206.111. in-addr.arpa domain name pointer baiduspider-111-206-198-69.crawl.baidu.com. > host baiduspider-111-206-198-69.crawl.baidu.com baiduspider-111-206-198-69.crawl.baidu.com has address 111.206.198.69
31
2024-05
【搜索知识】搜索引擎抓取系统概述(二)
编者按:之前与大家分享了关于搜索引擎抓取系统中有关抓取系统基本框架、抓取中涉及的网络协议、抓取的基本过程的内容,今天将于大家分享搜索引擎抓取系统第二部分内容—spider抓取过程中的策略。spider在抓取过程中面对着复杂的网络环境,为了使系统可以抓取到尽可能多的有价值资源并保持系统及实际环境中页面的一致性同时不给网站体验造成压力,会设计多种复杂的抓取策略。以下简单介绍一下抓取过程中涉及到的主要策略类型:1、抓取友好性:抓取压力调配降低对网站的访问压力2、常用抓取返回码示意3、多种url重定向的识别4、抓取优先级调配5、重复url的过滤6、暗网数据的获取7、抓取反作弊8、提高抓取效率,高效利用带宽1、抓取友好性 互联网资源庞大的数量级,这就要求抓取系统尽可能的高效利用带宽,在有限的硬件和带宽资源下尽可能多的抓取到有价值资源。这就造成了另一个问题,耗费被抓网站的带宽造成访问压力,如果程度过大将直接影响被抓网站的正常用户访问行为。因此,在抓取过程中就要进行一定的抓取压力控制,达到既不影响网站的正常用户访问又能尽量多的抓取到有价值资源的目的。通常情况下,最基本的是基于ip的压力控制。这是因为如果基于域名,可能存在一 个域名对多个ip(很多大网站)或多个域名对应同一个ip(小网站共享ip)的问题。实际中,往往根据ip及域名的多种条件进行压力调配控制。同时,站长平台也推出了压力反馈工具,站长可以人工调配对自己网站的抓取压力,这时百度spider将优先按照站长的要求进行抓取压力控制。对同一个站点的抓取速度控制一般分为两类:其一,一段时间内的抓取频率;其二,一段时间内的抓取流量。同一站点不同的时间抓取速度也会不同,例如夜深人静月黑风高时候抓取的可能就会快一些,也视具体站点类型而定,主要思想是错开正常用户访问高峰,不断的调整。对于不同站点,也需要不同的抓取速度。2、常用抓取返回码示意 简单介绍几种百度支持的返回码:1) 最常见的404代表“NOT FOUND”,认为网页已经失效,通常将在库中删除,同时短期内如果spider再次发现这条url也不会抓取;2) 503代表“Service Unavailable”,认为网页临时不可访问,通常网站临时关闭,带宽有限等会产生这种情况。对于网页返回503状态码,百度spider不会把这条url直接删除,同时短期内将会反复访问几次,如果网页已恢复,则正常抓取;如果继续返回503,那么这条url仍会被认为是失效链接,从库中删除。3) 403代表“Forbidden”,认为网页目前禁止访问。如果是新url,spider暂时不抓取,短期内同样会反复访问几次;如果是已收录url,不会直接删除,短期内同样反复访问几次。如果网页正常访问,则正常抓取;如果仍然禁止访问,那么这条url也会被认为是失效链接,从库中删除。4)301 代表是“Moved Permanently”,认为网页重定向至新url。当遇到站点迁移、域名更换、站点改版的情况时,我们推荐使用301返回码,同时使用站长平台网站改版工具,以减少改版对网站流量造成的损失。3、多种url重定向的识别 互联网中一部分网页因为各种各样的原因存在url重定向状态,为了对这部分资源正常抓取,就要求spider对url重定向进行识别判断,同时防止作弊行为。重定向可分为三类:http 30x重定向、meta refresh重定向和js重定向。另外,百度也支持Canonical标签,在效果上可以认为也是一种间接的重定向。4、抓取优先级调配 由于互联网资源规模的巨大以及迅速的变化,对于搜索引擎来说全部抓取到并合理的更新保持一致性几乎是不可能的事情,因此这就要求抓取系统设计一套合理的抓取优先级调配策略。主要包括:深度优先遍历策略、宽度优先遍历策略、pr优先策略、反链策略、社会化分享指导策略等等。每个策略各有优劣,在实际情况中往往是多种策略结合使用以达到最优的抓取效果。5、重复url的过滤 spider在抓取过程中需要判断一个页面是否已经抓取过了,如果还没有抓取再进行抓取网页的行为并放在已抓取网址集合中。判断是否已经抓取其中涉及到最核心的是快速查找并对比,同时涉及到url归一化识别,例如一个url中包含大量无效参数而实际是同一个页面,这将视为同一个url来对待。6、暗网数据的获取 互联网中存在着大量的搜索引擎暂时无法抓取到的数据,被称为暗网数据。一方面,很多网站的大量数据是存在于网络数据库中,spider难以采用抓取网页的方式获得完整内容;另一方面,由于网络环境、网站本身不符合规范、孤岛等等问题,也会造成搜索引擎无法抓取。目前来说,对于暗网数据的获取主要思路仍然是通过开放平台采用数据提交的方式来解决,例如“百度站长平台”“百度开放平台”等等。7、抓取反作弊 spider在抓取过程中往往会遇到所谓抓取黑洞或者面临大量低质量页面的困扰,这就要求抓取系统中同样需要设计一套完善的抓取反作弊系统。例如分析url特征、分析页面大小及内容、分析站点规模对应抓取规模等等。
22
2024-05
【搜索知识】搜索引擎抓取系统概述(一)
编者按:站长朋友们,今后定期都将在这里跟大家分享一些有关搜索引擎工作原理及网站运营相关的内容,今天先简单介绍一下关于搜索引擎抓取系统中有关抓取系统基本框架、抓取中涉及的网络协议、抓取的基本过程三部分。互联网信息爆发式增长,如何有效的获取并利用这些信息是搜索引擎工作中的首要环节。数据抓取系统作为整个搜索系统中的上游,主要负责互联网信息的搜集、保存、更新环节,它像蜘蛛一样在网络间爬来爬去,因此通常会被叫做“spider”。例如我们常用的几家通用搜索引擎蜘蛛被叫做:Baiduspdier、Googlebot、Sogou Web Spider等。Spider抓取系统是搜索引擎数据来源的重要保证,如果把web理解为一个有向图,那么spider的工作过程可以认为是对这个有向图的遍历。从一些重要的种子 URL开始,通过页面上的超链接关系,不断的发现新URL并抓取,尽最大可能抓取到更多的有价值网页。对于类似百度这样的大型spider系统,因为每时 每刻都存在网页被修改、删除或出现新的超链接的可能,因此,还要对spider过去抓取过的页面保持更新,维护一个URL库和页面库。1、spider抓取系统的基本框架 如下为spider抓取系统的基本框架图,其中包括链接存储系统、链接选取系统、dns解析服务系统、抓取调度系统、网页分析系统、链接提取系统、链接分析系统、网页存储系统。2、spider抓取过程中涉及的网络协议 搜索引擎与资源提供者之间存在相互依赖的关系,其中搜索引擎需要站长为其提供资源,否则搜索引擎就无法满足用户检索需求;而站长需要通过搜索引擎将自己的 内容推广出去获取更多的受众。spider抓取系统直接涉及互联网资源提供者的利益,为了使搜素引擎与站长能够达到双赢,在抓取过程中双方必须遵守一定的 规范,以便于双方的数据处理及对接。这种过程中遵守的规范也就是日常中我们所说的一些网络协议。以下简单列举:http协议:超文本传输协议,是互联网上应用最为广泛的一种网络协议,客户端和服务器端请求和应答的标准。客户端一般情况是指终端用户,服务器端即指网 站。终端用户通过浏览器、蜘蛛等向服务器指定端口发送http请求。发送http请求会返回对应的httpheader信息,可以看到包括是否成功、服务 器类型、网页最近更新时间等内容。https协议:实际是加密版http,一种更加安全的数据传输协议。UA属性:UA即user-agent,是http协议中的一个属性,代表了终端的身份,向服务器端表明我是谁来干嘛,进而服务器端可以根据不同的身份来做出不同的反馈结果。robots协议:robots.txt是搜索引擎访问一个网站时要访问的第一个文件,用以来确定哪些是被允许抓取的哪些是被禁止抓取的。 robots.txt必须放在网站根目录下,且文件名要小写。详细的robots.txt写法可参考 http://www.robotstxt.org 。百度严格按照robots协议执行,另外,同样支持网页内容中添加的名为robots的meta标 签,index、follow、nofollow等指令。3、spider抓取的基本过程 spider的基本抓取过程可以理解为如下的流程图:
06
2024-05
网站域名解析的一些技巧
更换了网站服务器空间的时候,站长通常需要对域名解析进行修改。由于不同的服务商之间的架构不同,很多时候并非IP的更换,而是CNMAE更换IP或IP更换CNAME,这里介绍一下这种情况的网站域名解析的技巧。如果使用传统方式将www从CNAME迁移到A,直接添加A记录,会提示一个CNAME记录已经存在,用户往往需要执行一个CNAME删除操作,才能再执行一个A添加操作,由于域名解析生效时间的延迟,会导致一段时间www域名无法解析,短则几分钟,长则一两个小时,这种修改方式体验不好。比较好的平滑修改的方式是,使用@和www两个记录解析网站,@使用A记录来解析IP地址,www使用CNAME记录来解析域名,如果需要执行从CNAME更换到A,则修改方法是,先把@的A记录修改为目标IP地址,接着,将www的CNAME解析到@,这样,就可以实现将www的CNAME解析到一个IP地址。同理,域名设置好了以后,如果未来需要将A记录修改到CNAME记录,则直接将www的CNAME修改为目标值即可。这样,更换www的内容时候,可以从CNAME到A都可以更换。这种CNAME迁移方式不但速度快,还稳定,不会在更改DNS的时候,出现域名无法解析的情况。附录:相关知识 域名解析:域名解析就是域名到IP地址的转换过程。IP地址是网路上标识自己网站的数字地址,为了简单好记,采用域名来代替IP地址标识站点地址。域名的解析工作由DNS服务器完成。A记录:A记录是用来指定主机名(或域名)对应的IP地址记录。用户可以将该域名下的网站服务器指向到自己的web server上。同时也可以设置网站域名的二级域名。CNAME记录:CNAME记录,即:别名记录。这种记录允许站长将多个名字映射到同一台计算机。 通常用于同时提供WWW和MAIL服务的计算机。例如,有一台服务器同时提供WWW和MAIL服务,为了便于用户访问服务。可以为该计算机设置两个别名(CNAME):WWW和MAIL。
26
2024-04
使用谷歌分析统计深色浅色模式
目前主流操作系统(Windows、mscOS、iOS和Android)均支持深色模式,很多网站也通过修改代码支持深色模式,那么,我们如何在Google Analytics谷歌分析中统计到底有多少人在使用深色模式,下面我就介绍一下具体的统计方法。通过事件统计的方式来统计深色浅色模式,设置一个事件名称,里面的数值就是深浅代号,谷歌分析UA里事件的调用方法如下所示。ga('send', 'event', [eventCategory], [eventAction], [eventLabel], [eventValue], [fieldsObject]);编辑网站的全局Javascript文件里的Google Analytics统计代码,将代码修改为如下所示:function () {if (window.matchMedia && window.matchMedia('(prefers-color-scheme: dark)').matches) {return 'Dark';}else if (window.matchMedia && window.matchMedia('(prefers-color-scheme: light)').matches) {return 'Light';}return 'No Preference';}var dimensionValue = darkmode();(function(i,s,o,g,r,a,m){i['GoogleAnalyticsObject']=r;i[r]=i[r]||function(){(i[r].q=i[r].q||[]).push(arguments)},i[r].l=1*new Date();a=s.createElement(o),m=s.getElementsByTagName(o)[0];a.async=1;a.src=g;m.parentNode.insertBefore(a,m)})(window,document,'script','https://www.google-analytics.com/analytics.js','ga');ga('create', 'UA-XXXXX-Y', 'auto');ga('send', 'pageview');ga('send', 'event','darkmode', dimensionValue);代码发布之后,过一段时间,就可以在 Google Analytics(谷歌分析)中查看数据了。具体查看位置在:“实时”-“事件”,以及“行为”-“事件”里。上述代码修改仅适用于Google Universal Analytics统计代码。对于新版的Google Analytics 4统计代码,其事件统计代码修改为如下代码。gtag('event', , {'event_category': ,'event_label':
09
2024-04
防止网站被黑帽SEO利用
目前,很多黑帽SEO利用站内搜索功能进行网站推广,并大规模污染了谷歌等常见搜索引擎,这里介绍一下网站站长如何操作,来避免网站的站内搜索被黑帽SEO利用的方法。通常来说,黑帽SEO攻击网站站内搜索的方法是,将推广的内容和网址嵌入到站内搜索的关键字中,然后优化这个搜索路径,用来欺骗搜索引擎排名。实际上,很多建站工具都存在这种问题,例如WordPress和Google Blogger等等,如果不阻止黑帽SEO的滥用,很可能会给网站的搜索排名带来负面影响。如何防止站内搜索被利用?最简单的方法是直接屏蔽搜索引擎收录站内搜索页,但这并不是我们推荐的方法,因为对于Google Blogger等系统来说,标签页也使用同样的地址,因此,最好能过滤出黑帽SEO的网站进行定向屏蔽。如何过滤出黑帽SEO的网站呢?我经过分析发现,黑帽SEO注入的内容大部分都包含网址,只要把网址关键字过滤了,就可以过滤掉黑帽SEO注入的内容。可以使用cloudflare防火墙进行网址过滤,具体方法是,建立一个防火墙规则,当检测到URI路径里同时包含search和.的时候,阻止浏览访问。防火墙规则如下图所示。因为域名必定会包含.这个关键字,而正常搜索或者网站标签通常不会包含这个关键字,因此,可以用这种方法来阻止黑帽SEO往网站索引里注入垃圾信息。
微信
微信客服二维码
微信客服
QQ QQ客服
返回顶部
在线咨询