データ処理をPython で記述 1
データ処理の流れは、
データの収集、データの加工、データの保存がある。
データの加工とデータの保存の順番は場合によって異なるが、主にこの3つの手順が必要となる。
今回は、データの収集についてpythonでどのようにコードを書けばいいのか、独自の考え方で考えてみる。
まず、データをどこから抽出するのか、という問題が思いつく。
powerpoint, pdf, excel, IoT, sensor, website, などなど、
データのソースがどこなのかによって抽出の方法が異なる。
*powerpoint からデータ(今回は文字列データ)を抽出することを考える。
必要となるコードを考える。すると、以下の事柄が挙げられる。
1、必要なライブラリの導入
2、扱うpowerpointファイルを特定
3、各スライドから文字列を取り出す処理
4、取り出した文字列を保存するファイルの作成
1について、、、
これは思いつくなんてことはできないのでインターネットで検索してみる。
「python read powerpoint text」と入力して検索してみると、
python-pptxというライブラリが活用できるとわかる。
また、データフレームの作成に必要なpandasライブラリも導入する。
2について、、、
これは、コンピューター内、または、クラウド内のファイルのパスを指定して変数に格納する。
3について、、、
「各スライド」というので繰り返し処理を行う事がイメージできる。これはfor文である。また、スライドが必ずしもテキストを持つとは限らないので持たない場合の処理として、次のスライドにすすむという処理が考えられる。
4について、、、
pandasを用いてデータフレームを作成し、3で収集したデータを格納する。この時、格納する前にコラムを作成しておく必要がある。コラムの作成方法はpandasのメソッドがあるのでそれを用いる。