用C#爬出GoodInfo股票資訊 ~ 維京碼農

今天我們要講解的是，如何使用C#+網頁XPath來抓取GoodInfo股票資訊

C#使用的套件為HtmlAgilityPack、與RegularExpressions

HtmlAgilityPack可以幫助我們取得網頁內容與提取資料

與RegularExpressions能夠快速取得或移除字串內容

今天要抓取的標的跟上支影片一樣是大立光，股票代號3008

首先抓取公司名稱與產業別

這邊設定UserAgent，模擬瀏覽器的行為並使用UTF-8編碼，接著使用HtmlWeb.Load取得了網頁內容，抓出公司名稱XPath節點與產業別XPath節點，最後將資料印出

我們接著來抓取股利政策，一樣使用HtmlWeb.Load取得網頁內容

由於表格某些資料佔用不只一欄或一列，所以我們必須手動補齊，避免標頭有空白資料的狀況

再來設定要抓取的資料

最後取得表格的內容

這邊要注意的是，子節點的內容並不是連續的td

因此需要先做一次篩選的動作

最後透過抓取獲利指標來複習一下，第一步就是使用HtmlWeb.Load取得網頁內容

計算資料佔用的欄與列

補齊標頭資料

設定要抓取的資料

最後取得表格內容

一樣要注意，td節點內容才是我們想要的

教學與操作影片

維京碼農