Ruby スクレイピング memo_01
・scan : 文字列に対して、正規表現を繰り返し適用して、文字列配列を返します。正規表現に、括弧(グルーピング)が含まれてるか否かで挙動が変わる。
・%r から ! : 正規表現。
元データ:<p>2016年1月30日
<a href="http://www.????.com">あいうえお</a></p>
# 日付の抜き出し:date_t = html.scan(/(¥d+)年(¥d+)月(¥d+)日/)
# リンクの抜き出し: links = html.scan(%r! <a href="(.+?)">(.+?)</a>!)
○zipでまとめる
date_t.zip(links)
or
○インデックスでまとめる
(0...date_t.length).map{|i|,[date_t[i], links[i]]}