【Python自動化】Seleniumを用いたWebスクレイピング(テキストデータ抽出)のやり方【おまけ付き】

プログラミング

2022.12.28 2021.05.18

1 はじめに
2 Pythonについて
3 Seleniumのimport
4 ブラウザの開き方
5 Webサイトを開く
6 Webサイトのidを取得する
7 Webサイトのclassを取得する
8 要素をテキストとして出力する
9 リストを表にする方法
10 CSVファイルやエクセルファイルとして出力
11 【まとめ】スクレイピングの基本的な流れ
12 Pythonの勉強方法【おまけ】
13 その他の記事
14 おわりに

はじめに
Pythonについて
Seleniumのimport
ブラウザの開き方
Webサイトを開く
Webサイトのidを取得する
Webサイトのclassを取得する
要素をテキストとして出力する
リストを表にする方法
CSVファイルやエクセルファイルとして出力
【まとめ】スクレイピングの基本的な流れ
Pythonの勉強方法【おまけ】
その他の記事
おわりに

はじめに

どーも、学生エンジニアのゆうき(@engineerblog_Yu)です。

Pythonでスクレイピングの案件を獲得したいと思っている方はいませんか？

今回はPythonでスクレイピングをしたい方に向けてSeleniumを解説していきたいと思います。

Seleniumを用いれば自動でプラウザを開きサイト上の情報を収集することができます。

何度も使われる操作はコードとして残しておけば次に同じ操作をするときにプログラムを回せば一瞬で操作を行うことができて、便利です。

Pythonの案件をこなしたい方やPythonを扱って作業を短縮化したい方はみておいて損はない内容となっています。

特にスクレイピングは案件が豊富なのでPythonで案件を獲得したい方はおすすめの内容です。

【2020年次に学びたいプログラミング言語1位】Pythonでできること【特徴・案件・勉強方法】

2020年次に学びたいプログラミング言語1位のPythonの特徴や案件獲得方法、勉強方法についてまとめました。プログラミング初心者やPythonについて知りたい方は必見の記事です。

(今回私はJupiterNotebookを用いてSeleniumを扱っています。)

noteで完全版を公開中です。

note完全版はこちら

Pythonについて

Pythonとは人工知能、機械学習、ディープラーニング、データ解析などに特化しており、2020年プログラミング言語人気ランキング1位になっているプログラミング言語です。

Pythonについて詳しく知りたい方はこちらのウェブサイトをどうぞ。

Seleniumのimport

まずはseleniumをimportしてあげましょう。

from selenium import webdriver

ブラウザの開き方

GoogleChromeを開きたい場合このコードを実行してください。

browser = webdriver.Chrome()

するとこのようなブラウザが自動で開かれると思います。

プログラミングにより制御されているブラウザであるので「Chromeは自動テストソフトウェアによって制御されています。」と表示されているはずです。

Webサイトを開く

それでは次に制御されたブラウザをSeleniumを用いて開いてあげましょう。

browser.get('開きたいWebサイトのURL')

browser.get()のカッコの中に開きたいWebサイトのURLを入れて実行してあげてください。

※Webサイトによってはスクレイピングが禁止されている場合もあるのでその部分はご自身の方で確認をよろしくお願いします。

Webサイトのidを取得する

elem = browser.find_element_by_id('id名')

idとはWebサイト上のHTMLタグのことです。

ここはPythonの知識だけでなくHTMLの知識も必要となってくるので難しいかもしれません。

GoogleChromeを使っている方は右クリックから検証を選べばWebサイトのHTML情報がみれると思います。

そちらのHTML情報から抽出したい情報があるidタグをコードとして打ち込んであげてください。

(なお同じ名前のidタグが複数ある場合は最初のidタグの情報がelemに格納されます。)

複数の同じ名前のidタグの情報を配列として格納したい場合は

elems = browser.find.elements_by_id('id名')

としてあげましょう。

elms[0],elems[1],,,とidタグの数だけ配列に格納させることができると思います。

Webサイトのclassを取得する

同様にclassを取得したい場合はこのようにしてあげましょう。

elem = browser.find.element_by_class_name('クラス名')

複数の同一の名前のclassを取得したい場合も同じです。

elems = browser.find.elements_by_class_name('クラス名')

要素をテキストとして出力する

上記のようにelemに情報を格納してあげたらtextメソッドでテキスト出力してあげることができます。

elem.text

また複数ある場合はfor文を用いてあげましょう。

values = []

for elem in elems:
    value = elem.text
    values.append(value)

こちらのコードを実行してあげれば、valuesというリストに順番にテキストが格納されていきます。

appendメソッドで、valuesというリストに、順番にテキストを入れていくことができます。

Pythonのfor文がわからない方はこちらの記事も一緒にどうぞ。

【制御フロー編】Python文法を簡単に解説(if,while,for,関数の定義)【おまけ付き】

Pythonの文法を初心者向けに簡単に解説しました。Pythonをやっておく上で欠かせない内容になっているのでプログラミング初心者は見ておいて損はない内容です。また勉強法についても解説してあります。

リストを表にする方法

次にpandasを用いて上記のvaluesをファイル出力してあげましょう。

pandasがわからない方はこちらも合わせてどうぞ。

【Python】データを扱うときの最強の武器、Pandasとは？【初心者向けに文法解説】

Python自動化やデータ分析に興味がある方向けによく用いられているPandasを紹介しました。初心者向けの文法解説付きです。Pythonで業務自動化やデータ分析をしたい方は必見です。

import pandas as pd

df = pd.DataFrame()
df['値']=values

df

としてあげるとpandasのデータフレームの表にしてあげることができます。

CSVファイルやエクセルファイルとして出力

CSVファイルを出力したい場合はこちらのコードを実行してあげてください。

出力したいファイル名の部分に名前をつけてあげてください。

index=FalseとはCSVファイルとして出力する時にindex番号を表示するかしないかという意味です。

index番号を表示させたい方は何も書かなくて大丈夫です。

df.to_csv('出力したいファイル名.csv',index=False)

エクセルファイルを出力したい場合はこちらのコードを実行してあげてください。

df.to_excel('出力したいファイル名.xsl',index=False)

【有料級】私が実案件で使用しているWebスクレイピングのテンプレートを公開しました【Python副業】

こんにちは。将棋と筋トレが好きな、学生エンジニアのゆうき( @engieerblog_Yu )です。私はランサーズで、Webスクレイピングを中心に副業を行なっています。現在も、転職サイトや発注サイトなどのWebスクレイピング案件に携わっています。今回は、少しでも多くの人がプログラミングで稼げるようになるために、スクレイ…

【まとめ】スクレイピングの基本的な流れ

スクレイピングの基本的な流れとしては

１、WebサイトのHTML情報を検証から確認する

２、欲しい情報をfind_elements_by~でリストとして格納する

３、Pandasを用いて表にする

４、CSVファイルやエクセルファイルにして出力する

となっています。

他にもBeautifulSoupやRequestsというモジュールを使う場合もあるのでそちらを使う場合におすすめの勉強法を以下で紹介していきたいと思います。

またBeautifulSoupやRequestsについてはこちらの記事で解説しています。

【自動化】PythonでWebサイトから情報を自動で抽出する【Webスクレイピング(BeautifulSoup)】

Pythonで自動的にデータ収集がしたい、プログラミングでめんどくさいことを少なくしたい。そんな方に向けての記事です。Pythonの良いところを凝縮した内容です。

【案件獲得】Python副業で稼ぐ方法三選(初心者向け)

こんにちは。学生エンジニアのゆうき( @engieerblog_Yu )です。今回はPythonで稼ぎたい！というあなたに実際に副業案件を取得した経験のある私が、おすすめの方法を紹介していきたいと思います。本記事を読めばPythonで稼ぐには何をしたらいいのか、わかること間違いなしです。 …

Pythonの勉強方法【おまけ】

Pythonの基礎文法を勉強するにはUdemyというオンラインプログラミング学習プラットフォームがおすすめです。

具体的に言うとこちらの講座です。

この講座だけで基礎文法だけでなく実践的な応用スキルまで身につけることができます。

めちゃくちゃわかりやすい講座なので気になる方は是非みてみてください。

私が受けたPythonの講座の中では最も良かったですし、この講座だけで案件を獲得できるようになるレベルまでプログラミングを上達させることができると思います。

実際多くの人がWeb上で高評価をしていてUdemyのPython講座といえばこの講座と言われているほどです。

以下のリンクからUdemy講座を参照することができます。

自分の未来に投資しよう。サイバーセール中はUdemyコースが最大90%OFF。

またいまにゅさんのこちらの動画もとても説明がわかりやすく実践しながら勉強することができるのでおすすめです。

その他の記事

【Python】シリコンバレー流コードスタイル【分かりやすいコードの書き方】

コードスタイルの中で王道と言われているシリコンバレー流コードスタイルについて紹介しました。プログラマーとして働きたい方は必須のスキルなのでぜひみてみてください。

【2020年次に学びたいプログラミング言語1位】Pythonでできること【特徴・案件・勉強方法】

おわりに

今回はWebスクレイピングに用いられるSeleniumについて紹介しました。

今回紹介したもの以外にもスクレイピングにはBeautifulSoupというものもあるのですがそちらの方も勉強すればスクレイピングの案件をとることができると思います。

【自動化】PythonでWebサイトから情報を自動で抽出する【Webスクレイピング(BeautifulSoup)】

Pythonの基礎を学び終えた方や案件を獲得したい方は勉強しておきたい内容です。

興味がある方は上記のUdemyのコースを受けてみるのも良いかと思います。