パワーポイントから文字情報取得
必要なライブラリ
pandas/ python-pptx/
これらを用いて処理を行う。
処理のイメージとしては、
1、パワーポイントファイル内の各ページに対して、文字があったら抜き出して、保存する。
2、保存した文字情報を新しいファイルとして保存する。
1の処理としては、
ーenumerateメソッドを用いて、for文で各ページに対して処理がなされるようにする。
ー1スライドを認識する。
ースライド内に文字があるかどうかを認識
ー文字があれば、それを読みとり、事前に用意してある配列に貼り付ける。
2の処理としては
ー1の処理により、文字情報の配列ができたのでこれをカラムとするために、pandasのデータフレームメソッドでデータフレームを作成する。
ー作成したデータフレームをファイルとして保存する。