铜山SEO的那些事:搜索引擎如何看懂你的网站
一、搜索引擎工作原理
当我们在百度搜索框输入“铜山特产”,点击查询按钮,然后看到结果列表。其实在这个过程中,搜索引擎在后台忙活了很多事情。
在搜索引擎的数据库里,存放着海量的关键词,每个关键词都对应着无数个网址。这些网址都是靠“网络爬虫”像勤劳的蜜蜂一样,在互联网的花丛中到处采蜜收集来的。这些爬虫每天不眠不休地在网上爬行,顺着链接从一个页面爬到另一个页面,把看到的内容下载下来分析。如果发现新的、有用的关键词,就存进数据库;如果觉得是垃圾信息或者重复内容,就摇摇头继续往前爬。
同一个关键词往往对应着几十上百个网址,这就涉及排序问题。通常最符合用户需求的网站会排在前面。不过这里存在一个关键问题:爬虫能不能看懂网页内容?如果你用Flash或者JS写网站,爬虫就会一脸迷茫,哪怕内容再优质也看不懂。它只认识HTML这类基础语言,也就是SEO要处理的核心。
二、SEO简介
全称:Search Engine Optimization,搜索引擎优化。可以说自从有了搜索引擎,SEO就自然出现了。
存在的意义很简单:让网站在搜索引擎的自然结果里获得更多收录和更好排名。说白了,就是希望搜索引擎能多收录我们优化过的网站,并且用户在搜索时我们的网站能出现在前面。
分为两类:白帽SEO和黑帽SEO。白帽SEO是通过规范化的方法让网站对搜索引擎和用户都更友好,从而获取合理流量,这是搜索引擎喜闻乐见的。黑帽SEO则是钻搜索引擎空子来骗取流量,这种做法通常不被搜索引擎认可。今天我们重点说白帽SEO,具体能做什么呢?
- 精心设置网站标题、关键词和描述,让搜索引擎明白这个网站是做什么的;
- 优化网站内容,让内容和关键词匹配度更高;
- 合理配置Robot.txt文件;
- 制作搜索引擎友好的网站地图;
- 多做一些外部链接,到各个平台去宣传推广;
三、前端SEO
通过优化网站结构布局和网页代码,让网页既能被普通用户看懂,也能被爬虫理解。
(1)网站结构布局优化:追求简单明了,推荐扁平化结构。
通常网站结构层次越少,爬虫越容易抓取内容。一般中小型网站超过三级目录,爬虫就不太愿意往下爬了,“万一迷路了怎么办”。而且调查显示:用户点击超过3次还找不到需要的信息,很可能就关掉页面走人了。所以三层结构既是爬虫的需要,也是用户体验的需要。具体要注意:
- 控制首页链接数量
首页是网站权重最高的地方,如果链接太少,爬虫就找不到路去内页;但链接太多又会影响用户体验和权重分配。建议中小型企业网站首页链接控制在100个以内,可以包括页面导航、底部导航、文字链接等,关键是要兼顾用户体验和信息引导。
- 采用扁平化目录结构,确保爬虫跳转3次就能到达任何内页。比如“铜山”->“铜山特产”->“铜山苹果”、“铜山核桃”、“铜山香油”,这样很容易就能找到想要的内容。
- 导航优化
尽量使用文字导航,如果要用图片导航,一定要给图片加上“alt”和“title”属性,这样即使图片显示不出来,用户和爬虫也能知道这个导航是做什么的。
另外每个页面都要加上面包屑导航,好处很明显:对用户来说,能清楚知道自己在哪里,怎么返回;对爬虫来说,能更好地理解网站结构,还能增加内部链接。
- 网站结构布局细节
页面顶部:放logo和主导航,还有用户登录信息。
页面主体:左边放正文和面包屑导航,右边放热门文章和相关推荐,这样既能留住访客,让用户多浏览一会儿,对爬虫来说也增强了页面相关性和权重。
页面底部:放版权信息和友情链接。
要特别注意分页的写法,推荐“首页 1 2 3 4 5 6 7 8 9 下拉框”这种形式,爬虫可以直接跳到指定页面。不推荐“首页 下一页 尾页”这种,特别是页数多的时候,爬虫要一页页往下翻,会很累、容易放弃。
- 控制页面大小,减少http请求,提升加载速度。
单个页面最好不要超过100k,太大加载慢。用户等不及会离开,爬虫也会因为超时直接走掉。
(2)网页代码优化
- 标题:突出重点就好,重要的关键词放前面,不要重复,每个页面的标题要有所不同。
- 关键词标签:列几个核心关键词就行,别堆砌太多。
- 网页描述标签:要简明扼要地概括页面内容,不要太长,每个页面都要有区别。
- HTML标签:要用对地方,让代码有语义。该用h1-h6标题标签的地方别用其他标签,让看代码的人和爬虫都能一目了然。
- 链接标签:站内链接要加“title”属性说明,站外链接要加rel="nofollow"属性,告诉爬虫“别往外爬了,爬出去就不回来了”。
- 正文标题要用h1标签:爬虫认为这个最重要,如果觉得默认样式不好看可以用CSS调整。基本原则是正文标题用h1,副标题用h2,其他地方不要乱用标题标签。
- 换行标签:只在文本换行时使用
- 表格要配表格标题标签
- 图片一定要写“alt”属性说明
- 加粗和强调标签:该强调的地方才用。加粗标签在搜索引擎眼里分量很重,能突出关键词,强调标签的效果紧随其后。
11、文本缩进不要用空格,应该用CSS设置。版权符号也不用找特殊字符,直接用输入法打“banquan”选第5个就行。
12、巧用CSS布局,把重要的HTML代码放在最前面,这样爬虫会优先读取这些内容。
- 重要内容别用JS输出,爬虫看不懂
- 尽量少用iframe框架,爬虫一般不会读取里面的内容
- 谨慎使用display:none:如果想隐藏某些文字内容,建议用z-index或者把它移出可视区域。因为搜索引擎会直接忽略display:none里的内容。
- 持续精简代码
- 操作DOM的JS代码尽量放在body结束标签前,HTML代码之后。
发表评论