Ruby スクレイピング memo_01

・scan : 文字列に対して、正規表現を繰り返し適用して、文字列配列を返します。正規表現に、括弧(グルーピング)が含まれてるか否かで挙動が変わる。

・%r から ! : 正規表現

元データ:<p>2016年1月30日

<a href="http://www.????.com">あいうえお</a></p>

# 日付の抜き出し:date_t = html.scan(/(¥d+)年(¥d+)月(¥d+)日/) 

#  リンクの抜き出し: links = html.scan(%r! <a href="(.+?)">(.+?)</a>!)

○zipでまとめる

date_t.zip(links)

or

○インデックスでまとめる

(0...date_t.length).map{|i|,[date_t[i], links[i]]}