2011年8月16日星期二

HTML Agility Pack:簡單好用的快速 HTML Parser

[ 網址:http://msdn.microsoft.com/zh-tw/ee787055]

解析 HTML:Web 開發人員心中的痛

自從 Web 應用程式自 1993 年 W3C 設立以來就開始發展,而且 HTML 也歷經了數個版本的演化(1.0 – 2.0 – 3.0 – 3.2 – 4.0 – 4.01),現在也已經成為Web網頁或應用程式的最基礎,想要學習如何設計 Web 網頁或開發 Web 應用程式,這已經是絕對必須要學的東西了,就算是方便的控制項充斥(例如 ASP.NET),但 HTML 仍然有學習它的必要性,因此如果不會 HTML,就等於沒學過 Web 網頁般。
拜 HTML 與 Web 瀏覽器蓬勃發展之賜,各式各樣的應用都在網路上迅速發展,舉凡電子商務、企業入口、線上下單、企業間協同應用等,乃至於社群、個人化、Web 2.0 等商務與組織運用等能力,而在資訊爆炸的時代,很多資訊整合的應用也隨之出爐,而這些資訊整合的應用程式都會連接到不同的網站下載其資訊,並且在重重的 HTML 中剖析出想要的資料(例如每股價格、漲跌幅、成交量等)。
但是 HTML 本身並不是一個結構嚴謹的語言,它允許標籤(tag)可以在不 close 的情況下繼續使用。這也是因為瀏覽器設計的高容錯性(Fault Tolerance)所致,如此一來,想要依照規則來剖析 HTML 文件幾乎變得不可能,而且對方的網站的 HTML 結構也可能會隨時變化,在這種情況下,剖析 HTML 變得非常辛苦,雖然 W3C 有另外推展 XHTML(遵守 XML 嚴謹格式的 HTML),但使用它來設計網頁的案例仍為少數,大多數的網站仍然是使用 HTML。因此我們會需要一個工具,能夠有方法快速的解析 HTML 以取出我們需要的資料。

沒有留言:

發佈留言