2008/04/20

Google進階搜尋(常用功能)

這篇原本是大約3年前的一個期中作業的一部分,當時本來有意架設一個Google專門的BLOG,但在課業繁忙與自己的怠惰下,只發了兩三篇文章後就擱置了,事到如今要重新經營也有困難,至少讓這篇文章不至於永久的被埋沒在資訊的洪流中。

1. 在Google台灣由於有兩岸三地間語言文字問題,可依需求選擇所有網站、所有中文網頁、繁體中文網頁或台灣的網頁。
[補充]除了Google台灣、香港站外,其他地區的Google大多只有一個網站可使用多種語言介面的情況,少有此種情形。
[範例]若想要尋找香港中文大學的首頁就不能使用台灣的網頁,相反的,想要找中國國家圖書館時也不能使用繁體中文網頁或台灣的網頁。

2. 可以輸入一個以上的關鍵詞,中間不須加and,只需空一格。
[補充A]可使用許多關鍵詞來縮小範圍,但有時使用適當的句子不會比許多詞難找到答案,例如「何謂DNA」或「什麼是DNA」可能比「DNA 定義」更能找到需要的答案。
[補充B]雖然理論上空格相當於布林邏輯中AND的語法,但實際上關鍵字的順序還是會影響到查詢結果,因此還是建議在使用複數關鍵字時,考慮清楚輸入的順序,盡量以一般出現順序為準。
[範例A]若要尋找國際書展接駁公車的資訊可以使用「國際書展接駁公車」來搜尋。
[範例B]例如若要搜尋期刊論文資料庫,使用「期刊論文」絕對比「論文 期刊」來得適合,當然用「期刊論文」可能會更適合。

3. 可在兩個或以上的搜尋詞間加入”OR”以搜尋A或B,並可利用()以限定,需特別注意的是,OR必須為大寫,這是忽略英文大小寫的Google中少數的例外。
[補充]Google忽略英文大小寫,因此搜尋「WHO」(世界衛生組織)的結果將會與「who」(誰)的搜尋結果相同。
[範例]若需要找各大學的工教系學會網站,用「(工業教育學系 OR 工教系) 學會」會較「工業教育學系 學會」來得適合。

4. 使用”-“號可以去除不需要的字[範例]如果想尋找金庸及古龍之外的武俠小說,可使用「武俠小說 -金庸 -古龍」來搜尋。

5. Google預設將部分字如http等列為停止字串,在搜尋時自動忽略,可在搜尋使用”+”號以包含停止字串[範例]使用「+a book」才能查詢到包含「a book」的結果。

6. 在關鍵字前加上~可查詢相似字的結果。
[補充]此功能似乎上無法用於中文字詞。
[範例]「~anime ~comic」查出來結果可能會是包含cartoon或art或animation的網頁。

7. 若關鍵字中有某段數字內的未知數值時,可用..表示介於中間的數值[範例]若想要找90年代與資訊月有關的消息,可使用「1990...2000 資訊月」來搜尋。

8. Google為求精確,不使用字幹或萬用字元(*,?之類的),但此理念在中文搜尋上所能發揮有限,在其他由字母組成的文字上較有實際用途。
[範例]使用「window XP」無法找到Windows XP的相關資料(打錯字的除外)。

9. 雖然在中文版的Google完全手冊上說到,Google不支援萬用字元,但亦非完全不支援,而是有其限制,必須採用雙引號並僅允許同樣數量的字。
[範例]若要尋找魑魅魍魎這句成語,卻找不到魑(發音ㄔ)這個字,可以使用「”*魅魍魎”」來搜尋(此處必須注意的是,網路上錯字亦多,並不一定能立刻找到正確答案)

10. 此外,*號亦可用於兩查詢字間有其他字的情況。
[範例]使用「澎湖 ** 機場」則澎湖與機場兩字之間需至少相距2個字。

11. 在一般情形下,輸入一個以上的關鍵字將找到有那些關鍵字的網頁,若使用””包住所要搜尋的關鍵字則能搜尋含有該「句子」的網頁,這部份在中文表現也不是非常好。
[範例]要尋找一本書名為彩蝶生態全紀錄的書時,使用「”彩蝶生態全紀錄”」較「彩蝶生態全紀錄」來得適合。

12. 使用site:可以限定搜尋某網站內網頁[補充]此功能用途其實相當廣泛,可作為站內搜尋使用。
[範例A]要尋找台大網站中關於傅園的敘述時,可使用「site:ntu.edu.tw 傅園」來搜尋(注意並非使用「site:www.ntu.edu.tw 傅園」)。
[範例B]要尋找法律相關政府機關時可使用「site:.gov.tw 法律」(注意若使用.gov會找到美國的網頁)來搜尋。
[範例C]想找到台灣Google站中哪些網頁有提到PageRank技術,只需要以「site:www.google.com.tw PageRank」來搜尋。

13. 使用intitle:可以搜尋特定網頁標題。
[補充]由於有些網站管理者不夠細心,網頁名稱可能仍為無標題文檔、未命名文件、Untitled Document,因此此功能稍微受到限制。
[範例]若想要翻閱各網站的網站地圖網頁如何設計排版,可使用「intitle:網站地圖」。

14. 使用inurl:可搜尋網址中有該字的網頁。
[補充]適合用於常用固定名稱的網頁如link,profile,sitecjo4map等。
[範例]若要搜尋各校生研社的相關連結,可使用「inurl:link 生研社」。

15. 使用intext:可搜尋內文中有該關鍵字的網頁,但此功能一般較少用,未收錄於Google完全手冊中。

16. 使用inanchor:可搜尋網頁連結中有該關鍵字的網頁,亦因為較少使用,未收錄於Google完全手冊中。

17. 使用filetype:可搜尋特定種類檔案。
[補充A]Google能夠成功的將包括DOC、PDF、PPT在內的幾種檔名轉為HTM,因此可直接搜尋該檔案的內文並預覽而不須另外安裝軟體,此外,一般而言,論文、演講稿、簡報或是技術文件等都較少直接使用HTM格式,因此在搜尋此類資料時使用檔案類型搜尋將能有效縮小範圍。
[補充B]基本上filetype的語法幾乎可以搜尋所有的附檔名,差別只在於是否能夠辨識及預覽,因此亦可試試如reg(登錄檔)之類的檔名,此外,此功能在Desktop Search上有很大的發展空間。
[範例]要尋找館藏發展政策時,用「館藏發展政策filetype:DOC」找到的資料在某些方面會較「館藏發展政策」來得適當。

18. 以上大多數的功能都可以整合在進階搜尋中使用。進階搜尋可同時針對布林邏輯運算、語言、檔案類型、日期、字詞位置、網域進行指定,亦可選擇每一頁要顯示多少筆結果。
[補充]字詞位置部分,有幾個隱藏的語法,分別為「allintext:」(內文),「allinanchor:」(在網頁的連結內),「allintitle:」(標題),「allinurl:」(URL),看起來似乎與「intext:」「inanchor:」「intitle:」「inurl:」等語法類似,其唯一不同點在於若使用含有all的語法,欄面中的所有字都會被視為必須在指定位置,沒有all的語法則只會用於冒號後面的字[範例]想尋找標題包括「個人」和「首頁」兩字時,必須使用「allintitle:個人 首頁」,而非「intitle:個人 首頁」。

19. Google的進階搜尋中關於網頁更新日期只有近三個月、近六個月、近一年等選項,但實際上,Google有一個不為人知的語法能夠查詢更新日期的範圍,那就是「daterange:」,很可惜的,日期格式僅支援凱撒日計數,因此暫時還很難以簡單的方式使用這個語法。
[補充A]Google對於日期判定是以Googlebot抓到網頁的時間來判定,而非網頁檔本身的日期。
[補充B]關於凱薩日計數與西元的轉換,可使用Julian Day Converter,如西元2005年1月1日是2453372;2005年2月28日是2453430[範例]若要查2005年之後台灣Google有哪些更新,可使用「site:www.google.com.tw daterange:2453372-2453430」

沒有留言: