限制搜尋引擎抓取頁面﹣Robots Meta

原文是在2012/01/10 發表於digitalker 這個站台~

有時網站會有不想讓搜尋引擎收錄頁面的狀況,這時該如何處理呢?

在Google 提供的 search-engine-optimization-starter-guid
提到了二種方法,

1、透過google webmaster tools 中的 robots.txt generator 產生 robots.txt
2、直接在頁面Meta robots 設成Noindex

較完整的作法建議採用robots.txt ,工具作法依圖示建立你要限制的資料夾或檔案
完成後,下載robots.txt,再上傳到網站的根目錄。
網站管理員工具 - 檢索器存取方式

介紹robots meta 的用法,整理的內容引用自SEO智網互聯﹣Robots Meta文章


<!-- 限制所有的搜尋引擎建立網頁快照 -->
<meta name=”robots” content=”noarchive”>

<!-- 也可以指定某一家搜尋引擎 -->
<meta name=”Baiduspider” content=”noarchive”>

<!-- 禁止抓取頁面 ,但可抓取連結繼續搜尋-->
<META NAME=”ROBOTS” CONTENT=”NOINDEX,FOLLOW”>

<!--禁止抓取,也禁止抓連結頁 -->
<META NAME=”ROBOTS” CONTENT=”NOINDEX,NOFOLLOW”>

<!--另一個寫法 -->
<META NAME=”ROBOTS” CONTENT=”NONE”>

<!-- 也不給建立快照  -->
<META NAME=”ROBOTS” CONTENT=”NOINDEX,NOFOLLOW,noarchive”>

META NAME=”ROBOTS”是泛指所有的搜尋引擎的,
也可以特指定某个搜尋引擎,
例如META NAME=”Googlebot”、META NAME=”Baiduspide”等。

content部分有四個值:index、noindex、follow、nofollow,
命令间以英文的“,”分隔。

INDEX:告訴搜尋引擎抓取這個頁面
FOLLOW:告訴搜尋引擎可以從這個頁面上找到鏈接,然後繼續訪問抓取下去。
NOINDEX:告訴搜尋引擎不允許抓取這個頁面
NOFOLLOW:告訴搜尋引擎不允許從此頁找到鏈接、拒絕其繼續訪問。

以上的資料供大家參考使用囉~

Share Your Thoughts