今回はパイソンのデータ解析ライブラリのpandasを使用して、抽出したデータの文字列の特定の値を取得するために、特定の文字列の間に挟まれた文字列を取得する方法をご紹介します。今回の場合、取得したデータのうち、href属性の値を取得したいと考え、今回こちらの手段を使いました。動的にサイトをスクレイピングし、データを加工するRPAには必要な手段化と思います。どなたかのアイディアの参考になれば幸いです。
コード紹介
import pandas as pd
df = pd.read_csv("〇〇.csv", encoding='cp932',usecols=['name'])
for item in df['name']:
test_str = item
# href="と"で挟まれた文字列を取得する
test1_str = re.search(r'href="(.+)"',test_str).group(1)
print(test1_str)
上記のコードはpandasを使用して、〇〇.csvの”name”カラムの行の「href”=”」と「”」に挟まれる文字列を取得します。
まとめ
今回のように、スクレイピングした情報からサイトURLや名称等抜き出したい場合に有効な手段です。その他パイソンのライブラリと組み合わせることで、自動化・RPAの実現に向けて近づくかと思われます。基本的な知識のご紹介でしたが、どなたかのプログラミングのご参考になれば幸いです。
コメント