铜山SEO的那些事:搜索引擎如何看懂你的网站

一、搜索引擎工作原理
当我们在百度搜索框输入“铜山特产”,点击查询按钮,然后看到结果列表。其实在这个过程中,搜索引擎在后台忙活了很多事情。
在搜索引擎的数据库里,存放着海量的关键词,每个关键词都对应着无数个网址。这些网址都是靠“网络爬虫”像勤劳的蜜蜂一样,在互联网的花丛中到处采蜜收集来的。这些爬虫每天不眠不休地在网上爬行,顺着链接从一个页面爬到另一个页面,把看到的内容下载下来分析。如果发现新的、有用的关键词,就存进数据库;如果觉得是垃圾信息或者重复内容,就摇摇头继续往前爬。
同一个关键词往往对应着几十上百个网址,这就涉及排序问题。通常最符合用户需求的网站会排在前面。不过这里存在一个关键问题:爬虫能不能看懂网页内容?如果你用Flash或者JS写网站,爬虫就会一脸迷茫,哪怕内容再优质也看不懂。它只认识HTML这类基础语言,也就是SEO要处理的核心。

二、SEO简介
全称:Search Engine Optimization,搜索引擎优化。可以说自从有了搜索引擎,SEO就自然出现了。
存在的意义很简单:让网站在搜索引擎的自然结果里获得更多收录和更好排名。说白了,就是希望搜索引擎能多收录我们优化过的网站,并且用户在搜索时我们的网站能出现在前面。
分为两类:白帽SEO和黑帽SEO。白帽SEO是通过规范化的方法让网站对搜索引擎和用户都更友好,从而获取合理流量,这是搜索引擎喜闻乐见的。黑帽SEO则是钻搜索引擎空子来骗取流量,这种做法通常不被搜索引擎认可。今天我们重点说白帽SEO,具体能做什么呢?


  1. 精心设置网站标题、关键词和描述,让搜索引擎明白这个网站是做什么的;

  2. 优化网站内容,让内容和关键词匹配度更高;

  3. 合理配置Robot.txt文件;

  4. 制作搜索引擎友好的网站地图;

  5. 多做一些外部链接,到各个平台去宣传推广;

三、前端SEO
通过优化网站结构布局和网页代码,让网页既能被普通用户看懂,也能被爬虫理解。
(1)网站结构布局优化:追求简单明了,推荐扁平化结构。
通常网站结构层次越少,爬虫越容易抓取内容。一般中小型网站超过三级目录,爬虫就不太愿意往下爬了,“万一迷路了怎么办”。而且调查显示:用户点击超过3次还找不到需要的信息,很可能就关掉页面走人了。所以三层结构既是爬虫的需要,也是用户体验的需要。具体要注意:


  1. 控制首页链接数量


首页是网站权重最高的地方,如果链接太少,爬虫就找不到路去内页;但链接太多又会影响用户体验和权重分配。建议中小型企业网站首页链接控制在100个以内,可以包括页面导航、底部导航、文字链接等,关键是要兼顾用户体验和信息引导。

  1. 采用扁平化目录结构,确保爬虫跳转3次就能到达任何内页。比如“铜山”->“铜山特产”->“铜山苹果”、“铜山核桃”、“铜山香油”,这样很容易就能找到想要的内容。

  2. 导航优化


尽量使用文字导航,如果要用图片导航,一定要给图片加上“alt”和“title”属性,这样即使图片显示不出来,用户和爬虫也能知道这个导航是做什么的。
另外每个页面都要加上面包屑导航,好处很明显:对用户来说,能清楚知道自己在哪里,怎么返回;对爬虫来说,能更好地理解网站结构,还能增加内部链接。

  1. 网站结构布局细节


页面顶部:放logo和主导航,还有用户登录信息。
页面主体:左边放正文和面包屑导航,右边放热门文章和相关推荐,这样既能留住访客,让用户多浏览一会儿,对爬虫来说也增强了页面相关性和权重。
页面底部:放版权信息和友情链接。
要特别注意分页的写法,推荐“首页 1 2 3 4 5 6 7 8 9 下拉框”这种形式,爬虫可以直接跳到指定页面。不推荐“首页 下一页 尾页”这种,特别是页数多的时候,爬虫要一页页往下翻,会很累、容易放弃。

  1. 控制页面大小,减少http请求,提升加载速度。


单个页面最好不要超过100k,太大加载慢。用户等不及会离开,爬虫也会因为超时直接走掉。

(2)网页代码优化


  1. 标题:突出重点就好,重要的关键词放前面,不要重复,每个页面的标题要有所不同。

  2. 关键词标签:列几个核心关键词就行,别堆砌太多。

  3. 网页描述标签:要简明扼要地概括页面内容,不要太长,每个页面都要有区别。

  4. HTML标签:要用对地方,让代码有语义。该用h1-h6标题标签的地方别用其他标签,让看代码的人和爬虫都能一目了然。

  5. 链接标签:站内链接要加“title”属性说明,站外链接要加rel="nofollow"属性,告诉爬虫“别往外爬了,爬出去就不回来了”。

  6. 正文标题要用h1标签:爬虫认为这个最重要,如果觉得默认样式不好看可以用CSS调整。基本原则是正文标题用h1,副标题用h2,其他地方不要乱用标题标签。

  7. 换行标签:只在文本换行时使用

  8. 表格要配表格标题标签

  9. 图片一定要写“alt”属性说明

  10. 加粗和强调标签:该强调的地方才用。加粗标签在搜索引擎眼里分量很重,能突出关键词,强调标签的效果紧随其后。


11、文本缩进不要用空格,应该用CSS设置。版权符号也不用找特殊字符,直接用输入法打“banquan”选第5个就行。
12、巧用CSS布局,把重要的HTML代码放在最前面,这样爬虫会优先读取这些内容。

  1. 重要内容别用JS输出,爬虫看不懂

  2. 尽量少用iframe框架,爬虫一般不会读取里面的内容

  3. 谨慎使用display:none:如果想隐藏某些文字内容,建议用z-index或者把它移出可视区域。因为搜索引擎会直接忽略display:none里的内容。

  4. 持续精简代码

  5. 操作DOM的JS代码尽量放在body结束标签前,HTML代码之后。

发表评论

评论列表