パワーポイントから文字情報取得

必要なライブラリ

pandas/ python-pptx/ 

これらを用いて処理を行う。

 

 

処理のイメージとしては、

1、パワーポイントファイル内の各ページに対して、文字があったら抜き出して、保存する。

2、保存した文字情報を新しいファイルとして保存する。

 

1の処理としては、

ーenumerateメソッドを用いて、for文で各ページに対して処理がなされるようにする。

ー1スライドを認識する。

ースライド内に文字があるかどうかを認識

ー文字があれば、それを読みとり、事前に用意してある配列に貼り付ける。

 

2の処理としては

ー1の処理により、文字情報の配列ができたのでこれをカラムとするために、pandasのデータフレームメソッドでデータフレームを作成する。

ー作成したデータフレームをファイルとして保存する。