PDF

Google Colab: PDF to CSV 変換器を Colab に設置 [第四話望郷篇] – Pandas を SQL っぽく使う

2020-08-26 by ggcs

望郷篇の能書き

インドの話をするにあたって資料を紹介しようとして始めた話が迷走して、ここまできてしましました。長〜い話にお付き合いいただきありがとうございます

例によって詳細をトレースできる Jupyter Notebook (*1) は下の おまけ のところに置いておきましたので、今回も細かい説明は省いて、ポイントとなる script のシェアにとどめます。

(*1) Google Colab （Python 3.6.9）上で動作確認済

望郷篇に登場する伏兵

最終回はこれといったトラブルもなく作業が進みました。

多機能な Pandas は Database アプリ的な使い方もできる[1]ので、今回は UPDATE [2, 3] や LEFT JOIN [4] 的な機能を使ってみました。

最終回の作業の流れ

前回（乱麻篇）までの作業で、tabula を使ってオリジナルの PDF をデータ化し、州名略記（state_code）> 州ごとの連番（sc_num）の順にソートするところまで漕ぎ着けました（df_sorted_intermed.csv として一時保存）。

最終回となる今回は、ここから進めて業種列（biz_type column）の整理と正規化等を行います。

前提

Google Colab 上で作業する前提です。
df_sorted_intermed.csv が Google Drive の　/content/drive/My Drive/pdf_project/data/df_sorted_intermed.csv に置いてあること（cf. 乱麻篇）。

手順

作業は次の順序で行います。

作業準備（Script 0）
作業中のデータの読み込み（Script 1）
業種マスターの読み込み（Script 2）
修正用 DF の読み込み（Script 3）
com_jp column の微修正（Script 4）
マスターテーブルの準備（Script 5）
修正用 DF の適用（Script 6）
業種データの正規化（Script 7）
CSV ファイルに保存（Script 8）

それでは始めます。

作業準備

Google Drive のマウントなどを行います（Script 0）。

Script 0

'''以下はすべて Google Colab / Drive が前提となっているので、
local machine で実験する時には適当に path などを変えてください。'''

# Google Drive のマウント。
from google.colab import drive
drive.mount('/content/drive')

# Modules の import.
import os
import pandas as pd
# ディレクトリ構造を定義する。
PROJECT_ROOT_PATH = '/content/drive/My Drive/pdf_project'
DATA_PATH   = os.path.join(PROJECT_ROOT_PATH, 'data')

print('準備完了 🍻')

作業中のデータの読み込み

前回保存した作業ファイル（df_sorted_intermed.csv）を読み込みます（Script 1)。

せっかく sort してあるので、index をコピーして id column を作っておきます。

Script 1

df = pd.read_csv(os.path.join(DATA_PATH, 'df_sorted_intermed.csv'))
# Create an 'id' column
df.reset_index(drop=False, inplace=True)
df.rename(columns={'index': 'id'}, inplace=True)
df.head()

業種マスターの読み込み

オリジナル PDF を確認しながら正規化した業種データ（biz_type column）を「業種マスター」（table_biz_types）として DataFrame（以下「DF」）の形で用意しておきます（Script 2）。

Script 2

table_biz_types = pd.DataFrame(
  [
    ['00', '(blank)'],
    ['01', '農業、林業、漁業 / Agriculture, forestry, fishery'],
    ['02', '(blank)'],
    ['03', '建設業 / Construction industry'],
    ['04', '食料品、飲料・たばこ・飼料製造業 / Manufacturing - Food, drink, tobacco'],
    ['05', '繊維工業 / Textile industry'],
    ['06', '木材・木製品、パルプ・紙・紙加工品製造業 / Manufacturing - paper and paper products'],
    ['07', '化学工業 / Chemical industry'],
    ['08', '石油製品・石炭製品製造業 / Manufacturing - coal products, petro products'],
    ['09', '窯業・土石製品製造業 / Pottery'],
    ['10', '鉄鋼業 / Steel'],
    ['11', '非鉄金属製造業 / Manufacturing - Non-metal products'],
    ['12', '金属製品製造業 / Manufacturing metal products'],
    ['13', 'はん用機械器具製造業 / Manufacturing - general machinery'],
    ['14', '生産用機械器具製造業 / Manufacturing - production machinery'],
    ['15', '業務用機械器具製造業 / Manufacturing - commercial machinery'],
    ['16', '電気機械器具製造業 / Manufacturing - electronic machinery'],
    ['17', '情報通信機械器具、電子部品・デバイス・電子回路製造業 / Manufacturing - IT products and electronic products'],
    ['18', '輸送機械器具製造業 / Manufacturing - automobile , two wheeler'],
    ['19', 'その他の製造業 / Manufacturing - others'],
    ['20', '電気・ガス・熱供給・水道業 / Electricity, gas, water supply'],
    ['21', '情報通信業 / Broadcasting, telecommunication etc.'],
    ['22', '運輸業 / Transportation'],
    ['23', '卸売業（商社） / Wholesale (trading company)'],
    ['24', '卸売業（販社） / Wholesale (sales company)'],
    ['25', '小売業 / Retail'],
    ['26', '金融業、保険業 / Finance and insurance'],
    ['27', '不動産業 / Real estate'],
    ['28', '物品賃貸業 / Product lease'],
    ['29', '宿泊業、飲食サービス業 / Hotel service, restaurant'],
    ['30', '教育、学習支援サービス業 / Education, learning support service'],
    ['31', '医療、福祉サービス業 / Medical, social welfare service'],
    ['32',
    '複合サービス業 / Compound service (postal, cooperative, association etc.)'],
    ['33', 'その他のサービス業 / Other service']
  ],

  columns=['biz_type_code', 'biz_description']
)

table_biz_types.head()

修正用 DF の読み込み

前々回（死闘篇）で行った Triad退治の副作用で乱れた rows (records) を修正するための DF を用意しておきます（Script 3）。

Script 3

# df_btyp_non_num を手作業で修正（correct）した DF.
df_btyp_non_num_corrected = pd.DataFrame(
  [
    [346, 'HR', 'Bawal', 7,
    'Caparo MI Steel Processing, Denso Ten Minda', '伊藤忠丸紅鉄鋼',
    '10 鉄鋼業/  Steel'],
    [351, 'HR', 'Bawal', 12, 'HANKYU HANSHIN EXPRESS INDIA',
    '阪急阪神エクスプレス', '22 運輸業/  Transportation'],
    [365, 'HR', 'Bawal', 26, 'RANE NSK STEERING SYSTEMS', '日本精工',
    '12 金属製品製造業/  Manufacturing metal products'],
    [367, 'HR', 'Bawal', 28, 'Sanko Gosei Technology India', '三光合成',
    '07 化学工業/  Chemical industry'],
    [374, 'HR', 'Dharuhera', 35, 'SMI AMTEK Crankshaft', '新日鐵住金',
    '12 金属製品製造業/  Manufacturing metal products'],
    [2397, 'MH', 'Mumbai', 273, 'Lintec India', 'リンテック',
    '24  卸売業(販社)/  Wholesale (sales company)'],
    [4201, 'TN', 'Chennai', 176, 'Kohyei Polymers India', '弘栄貿易',
    '11 非鉄金属製造業/  Manufacturing -  Non-metal products'],
    [4250, 'TN', 'Chennai', 225, 'Mizuho Bank', 'みずほ銀行',
    '26 金融業、保険業/  Finance and insurance'],
    [4259, 'TN', 'Chennai', 234, 'MUFG Bank', '三菱UFJ銀行',
    '26 金融業、保険業/  Finance and insurance'],
    [4261, 'TN', 'Chennai', 236, 'Murugappa Organo Water Solutions',
    'オルガノ', '01  農業、林業、漁業/  Agriculture, forestry, fishery'],
    [4264, 'TN', 'Chennai', 239, 'Netmagic Solutions  Chennai Office',
    'NTTコミュニケーションズ',
    '21 情報通信業/  Broadcasting, telecommunication etc.'],
    [4282, 'TN', 'Chennai', 257, 'NISSIN ABC LOGISTICS', '日新',
    '22 運輸業/  Transportation']
  ],

  columns=['id', 'state_code', 'location', 'sc_num', 
          'com_in', 'com_jp', 'biz_type']
)

# あとあとの都合があるので、index を key の値に一致させておきます。
df_btyp_non_num_corrected.index = df_btyp_non_num_corrected.id

# 確認
df_btyp_non_num_corrected.head()

com_jp column の微修正

同じく前々回のセル内改行対策の副作用で、com_jp column の中身も少し乱れています。

目視で確認したところ、複数の親会社（例えば、Ａ社とＢ社）を持つ場合に、’Ａ社<br>Ｂ社’ となっているパターンと、’Ａ社及び<br>Ｂ社’ となっているパターンの 2 パターンがあったので、これらは差し当たりすべて comma 区切りに変換しておきます（Script 4）。

Script 4

# Regex で、この順序で置換。
df.com_jp.replace(r'<br>', r', ', inplace=True, regex=True)
df.com_jp.replace(r'及び', r'', inplace=True, regex=True)
df.head(10)

マスターテーブルの準備

以上の作業結果をひとつの DF (master_table) にまとめます。

作業結果が反映された df を copy して、新たに table_master と名付けて土台の DF にします（Script 5）

Script 5

# 新たに table_master (DataFrame) を作って気分一新。
table_master = df.copy()

修正用 DF の適用

上の修正用 DF の読み込みで準備しておいた df_btyp_non_num_corrected を使って master_table を UPDATE します（Script 6）。

Script 6

# 修正済みの df_btyp_non_num_corrected で df_master を　UPDATE.
table_master.update(df_btyp_non_num_corrected, join='left')

業種データの正規化

次のステップで業種データの正規化を行います（Script 7）。

biz_type_code column を作る
Database に流し込むときに、biz_type は上の業種マスターの読み込みで作っておいた別 table (table_biz_types) に分けておいた方が便利なので、table_master 上に新たに ‘biz_type_code column’ を作って biz_type の先頭 2 桁の数字を入れておきます。
LEFT JOIN
table_master を LEFT TABLE, table_biz_types を RIGHT TABLE として、WHERE table_master.biz_type_code = table_biz_types.biz_type_code とするような感じで 2 つの tables を JOIN します。
biz_type column を drop
以上の操作で biz_type column は番号部分（biz_type_code）と中身の部分（biz_description）の 2 つの columns に分割されたので、重複を避けるために元の biz_type column 自身は drop しておきます。

Script 7

#  業種を番号（biz_type_code）で管理したいので、
## 1. 新しく biz_type_code column を作って biz_type の頭の数字 2 桁を入れておきます。
table_master['biz_type_code'] = table_master.biz_type.str[0:2]

## 2. biz_type_code を KEY にして LEFT JOIN する。
table_master = pd.merge(table_master, table_biz_types, how='left', on='biz_type_code')

## 3. biz_type の中身は biz_type_code と biz_description と同じなので、drop します。
table_master.drop(columns=['biz_type'], inplace=True)

# 掃除
## key, sc_num の dtype（の見た目）を int にしておく。
table_master[['id', 'sc_num']] =\
 table_master[['id', 'sc_num']].astype('int')
## biz_type_code dtype（の見た目）を string にしておく。
'''できあがった CSV を editor で開くとわかりますが、1 桁の数字は、01, ... 09
と padding されています。しかし、CSV を開くアプリによっては、勝手にゼロを削除
してしまうものもあるので注意が必要です。'''
table_master[['biz_type_code']] =\
table_master[['biz_type_code']].astype('str')

table_biz_types[['biz_type_code']] =\
 table_biz_types[['biz_type_code']].astype('str')

table_master

CSV ファイルに保存

table_master と table_biz_types を CSV ファイルに保存(*2)します（Script 8）。

（*2) ファイルは Google Drive の /content/drive/My Drive/pdf_project/data に保存されます。

Database に納める時は、
1. table_master の biz_description 以外の columns と、
2. table_biz_types の 2 つの table を CREATE して、
3. biz_type_code を FOREIGN KEY に指定すると良いと思います。

Script 8

table_master.to_csv(os.path.join(DATA_PATH, 'table_master.csv'), index=False)
table_biz_types.to_csv(os.path.join(DATA_PATH, 'table_biz_types.csv'), index=False)
print('DONE! お疲れ様でした 🍻')

おまけ

上記の script に説明を加えた Jupyter Notebook を pdf_to_csv_norm.ipynb_.zip [10 KB] （Preview）に置いておきました。Colab に upload すればそのまま使えます。

References

[1] pandas User Guide. Comparison with SQL ( Google翻訳 | Bing翻訳 )
[2] pandas User Guide. pandas.DataFrame.update ( Google翻訳 | Bing翻訳 )
[3] pandas User Guide. UPDATE ( Google翻訳 | Bing翻訳 )
[4] pandas User Guide. LEFT OUTER JOIN ( Google翻訳 | Bing翻訳 )

インドの話をゆっくりと: インド進出日系企業リスト 2019版が公表されました

Google Colab: PDF to CSV 変換器を Colab に設置 [第一話立志篇] – これでコピペ作業から開放！

Google Colab: PDF to CSV 変換器を Colab に設置 [第二話死闘篇] – NaN は dtype: float で捕捉！

Google Colab: PDF to CSV 変換器を Colab に設置 [第三話乱麻篇] – Categorical data は頼れる味方

Google Colab: PDF to CSV 変換器を Colab に設置 [第三話乱麻篇] – Categorical data は頼れる味方

2020-08-19 by ggcs

乱麻篇の能書き

例によって詳細をトレースできる Jupyter Notebook (*1) は下の おまけ のところに置いておきました。

今回も細かい説明は省いて、ポイントとなる script のシェアにとどめます。

(*1) Google Colab （Python 3.6.9）上で動作確認済。

乱麻篇に登場する伏兵

連番に潜む謎の文字列: column の中身をかなり整理した後なので数字（string）しか入っていないはずのセルに、謎の文字列 Naga8r5 が。オリジナル PDF で目視確認してもそこには普通に 85 という数字しかない。しかしオリジナル PDF 上の文字列をマウスでコピペして editor に貼り付けて見るとそこには 85の皮を被ったNaga8r5 の文字列が…😱（お分かりいただけただろうか？）。
解決法: 当該セルを探し出して手書きで修正 🙄

今回の作業の流れ

前回（死闘篇）までの作業で、PDF の粗々の CSV 化まで漕ぎ着けたので、オリジナル PDF の目次に従って、レコード（行 = rows）の並び順をオリジナルに戻すことにします。
目標は、州名略記（state_code）> 州ごとの連番（sc_num）の順にソートされた表を作ることです。
- なお、DF の Sort については、Pandas: DataFrame の任意の列を任意の順序でソートする として別記事に少し詳しく書いておきました。

作業は次の順序で行います。

Setup (Script 0)
作業中のデータの読み込み (Script 1)
州ごとの連番列 (sc_num column) の準備 (Scripts 2)
州略記列 (state_code colunn) の準備 (Scripts 3, 4)
state_code > sc_num の順に並べ替え（Script 5）
作業データの保存（Script 6）

それでは始めます。

作業準備

前提1: tabula-py が Google Drive の ~/My Drive/Colab Notebooks/my-modules にインストールされていること。
前提2: 読み込み元の PDF が、Google Drive の ~/My Drive/pdf_project/data/2018_co_list_jp_r.pdf に置かれていること。
前提3: 前回作業中の CSV が、Google Drive の ~/My Drive/pdf_project/data/df_all_intermed.csv に置かれていること。
もし上記の前提が満たされていないようでしたらお手数ですが、立志篇、死闘篇を参照の上、準備をお願いします。

Script 0

'''以下はすべて Google Colab / Drive が前提となっているので、
local machine で実験する時には適当に path などを変えてください。'''

# Google Drive のマウント。
from google.colab import drive
drive.mount('/content/drive')

# Modules の import.
import os
import sys
# PATH を通す（Python に modules の場所を教える）
# local machine で実験するときは不要。
MODULE_PATH = '/content/drive/My Drive/Colab Notebooks/my-modules'
sys.path.append(MODULE_PATH)
import tabula  # Module の場所を教えたので、import.
import pandas as pd  # 念のため明示的に import しておく。

# ディレクトリ構造を定義する。
# local machine で実験するときは、
# PROJECT_ROOT_PATH = '.' などと適当に変えて使います。
PROJECT_ROOT_PATH = '/content/drive/My Drive/pdf_project'
DATA_PATH   = os.path.join(PROJECT_ROOT_PATH, 'data')

print('準備完了 🍻')

作業中のデータの読み込み

Remarks: 2020年08月18日以前に df_all_intermed.csv を作られた方は、お手数ですが df_all_intermed.csv を更新してください（\r 問題 解決済バージョンです）。

Script 1

# Load the previously prepared intermediate working file.
df_all_intermed = pd.read_csv(os.path.join(DATA_PATH, 'df_all_intermed.csv'))
df_all_intermed

州ごとの連番列 (sc_num column) の準備

CSV から読み込んだだけなので、DF のすべてのデータは object（string）です。そのままうっかり sort を掛けると、数値で並べ替えたつもりが文字列での並べ替えになってしまうので、int にしたいところです。
ところが、この CSV の場合、とある事情で、いきなり int にしようとすると文句を言われるので、いちど float を経由して int に変換します。
だが、ここで伏兵が襲う！ — というのが 85の皮を被ったNaga8r5 問題ですが、話が長くなるので詳細はおまけの Jupyter Notebook で。

Script 2

# Data correction
df_all_intermed.at[1711, 'sc_num'] = 85
# Change the dtype of sc_num -> float -> int
df_all_intermed.sc_num = df_all_intermed.sc_num.astype(float)
df_all_intermed.sc_num = df_all_intermed.sc_num.astype(int)
# Confirm the results.
df_all_intermed.info()

州略記列 (state_code colunn) の準備

Script 3 で州名略記（state_code）の順序を list にしておき、Script 4 で DF の state_code column を category type にするとともに、カテゴリー項目の順序を教えてあげます。

Script 3

# Define state codes and their order.
state_code_order = ['DL', 'HR', 'UP', 'RJ', 'CH', 'PB', 'UK', 'HP', 'JK', 'AS',
       'AR', 'MN', 'ML', 'MZ', 'SK', 'TR', 'WB', 'JH', 'OD', 'BR', 'MH',
       'GJ', 'MP', 'GA', 'CG', 'DD', 'DN', 'KA', 'TN', 'AP', 'TS', 'KL',
       'PY']

Script 4

# 念のため、Copy に対して作業することにします。
df_sorted = df_all_intermed.copy() # sc_num の掃除は既に済んでいる。
# state_code column の data type を categorical にし、順序も定義。
df_sorted.state_code = pd.Categorical(
    df_sorted.state_code, categories=state_code_order, ordered=True)

Let’s SORT!

準備が整ったので、state_code と sc_num の 2 columns を一気に sort します（Script 5）。
Excel のカスタムソートとの違いは、Pandas の場合は state_code column (dtype = category) が自分でカテゴリー項目の順番を覚えている（Script 4）ので、sort のたびに一々順序を指定しなくても良いところです。

Script 5

# Sort the whole DF.
df_sorted.sort_values(by=['state_code', 'sc_num'], inplace=True)
# reset the index.
df_sorted.reset_index(drop=True, inplace=True)
df_sorted.head(16)

作業データの保存

ここまでの結果を、df_sorted_intermed.csv の名前で Google Drive の data フォルダに保存しておきます（Script 6）。

Script 6

df_sorted.to_csv(os.path.join(DATA_PATH, 'df_sorted_intermed.csv'), index=False)

Main Takeaway

pandas.Categorical() はとても良い奴。Sort は奴の実力のごく一部、友達になっておくと心強い 🏋️‍♂️

次回計画

‘biz_type’ の正規化。現状で unique 値が 56 個ですが、これは本当の数の倍ぐらいに増えちゃっています（Triad退治などの影響）。
正規化: ‘com_in’, ‘com_jp’, ‘biz_type’ は別の table に分けて foreign key で引っ張ってくるようにした方が良さそう。

Sneak Preview

既にお気づきのように、この DF にはもう一つ Categorical な column, biz_type があります。
ちょっと覗いてみると、Script 7 のような状況です。
Triad退治の後遺症などもあって、オリジナル PDF のデータがだいぶ撹乱されていますが、次回はその整序などを行いたいと思います。

Script 7

sorted(df_sorted.biz_type.unique())

おまけ

上記の script に説明を加えた Jupyter Notebook を pdf_to_csv_sort.ipynb_.zip [7 KB] （Preview）に置いておきました。Colab に upload すればそのまま使えます。

インドの話をゆっくりと: インド進出日系企業リスト 2019版が公表されました

Google Colab: PDF to CSV 変換器を Colab に設置 [第一話立志篇] – これでコピペ作業から開放！

Google Colab: PDF to CSV 変換器を Colab に設置 [第二話死闘篇] – NaN は dtype: float で捕捉！

Google Colab: PDF to CSV 変換器を Colab に設置 [第四話望郷篇] – Pandas を SQL っぽく使う

Google Colab: PDF to CSV 変換器を Colab に設置 [第二話死闘篇] – NaN は dtype: float で捕捉！

2020-08-11 by ggcs

前回までのあらすじ

前回の立志篇では、インド進出日系企業リスト-2018 [1] の PDFをCSVに変換、データ化する作業をいつも通り Acorbat DC Pro でこなした GGCS は、これ、Python でもできるんじゃないかと思い立ち tabula-py [2] を使って PDF データ化を実験、思いのほかスイスイ作業が進み、これは Python で楽勝だ！記事にしてみんなに~~自慢しよう~~貢献するんだ！と勇躍執筆に取りかかった。

しかし、その影には思わぬ伏兵が潜んでいたのだった…。

News 2020年08月31日に在インド日本大使館のサイトで「インド進出日系企業リスト-2019」(2019_co_list_jp.pdf)[3] が公表されました。👉 2019版対応 script をこちらで公開しました。

死闘篇の能書き

詳細をトレースできる Jupyter Notebook (*1) は下の おまけ のところに置いておきましたが、説明がやや長いのでここでは細かい説明は省いて、ポイントとなる script をシェアするだけにしました。

説明はほとんど省略しているので、何をやっているかわかりにくいかもしれませんが、そのままコピペして上から順に実行していけば、PDFをCSVに変換することができます（ただし、最終仕上げ前の CSV なので、一部データの修正作業が残っています）。

繰り返しが処理が多いため見た目が若干複雑ですが、骨組みは単純ですので少し手直しすれば他の PDFをCSVに変換する作業にも流用できます。

(*1) Google Colab （Python 3.6.9）上で動作確認済。手元の PC は猛暑でヘタっているのでお昼寝中。実証していません。

死闘篇に登場する伏兵たち

オリジナル原稿の Excel で「セル内改行」が行われている場合、PDF を正しく parse できず、表の 1 行（row）が複数行に、しかもあまり法則性なく、バラバラに分割されてしまうことがあります。
解決法: 言葉で説明するより script をみた方が早いので以下をご覧ください（そもそも「セル内改行禁止」と言う抜本的な対策もありますが）。
今回のような名簿的なリストの場合には、仮に怪しい Value や NaN があったとしても、そのデータを row (record) ごと捨てるなどの処理（dropna とか電話番号の平均値を取るとか）するわけにはいきません。そこで、NaN に match させて何らかの処理する必要が生じますが、これが意外に難物（foo == NaN, np.nan, ‘nan’, ‘naan’, None, ”, False、みたいなのは全部ダメ）。
解決法: 対象データが、NaN と string だけで構成されている場合には、type(foo) == float で match させることができます。数値と NaN が混在しているときには使えない手ですが、使える時には使うと便利です。
list から NaN 以外を取り出してつなげる時、filter() を使わないで list comprehension を使った方がスッキリ行く場合がある。
解決法: これは文字通りです。ちょっとダサいとかいう批判は却下😅

今回の作業の流れ

Google Colab / Drive の設定
前回の最後の状態から再開です。
Script を実行して PDFをCSVに変換
Script 0 – 9_rev をこの順番で実行します。

それでは始めます。

作業準備

前提1: tabula-py が Google Drive の ~/My Drive/Colab Notebooks/my-modules にインストールされていること。
前提2: 読み込み元の PDF が、Google Drive の ~/My Drive/pdf_project/data/2018_co_list_jp_r.pdf に置かれていること。
もし上記の前提が満たされていないようでしたら、立志篇を参照の上、準備をお願いします。

Script 0

'''以下はすべて Google Colab / Drive が前提となっているので、
local machine で実験する時には適当に path などを変えてください。'''

# Google Drive のマウント。
from google.colab import drive
drive.mount('/content/drive')

# Modules の import.
import os
import sys
# PATH を通す（Python に modules の場所を教える）
# local machine で実験するときは不要。
MODULE_PATH = '/content/drive/My Drive/Colab Notebooks/my-modules'
sys.path.append(MODULE_PATH)
import tabula  # Module の場所を教えたので、import.
import pandas as pd  # 念のため明示的に import しておく。

# ディレクトリ構造を定義する。
# local machine で実験するときは、
# PROJECT_ROOT_PATH = '.' などと適当に変えて使います。
PROJECT_ROOT_PATH = '/content/drive/My Drive/pdf_project'
DATA_PATH   = os.path.join(PROJECT_ROOT_PATH, 'data')

print('準備完了 🍻')

PDF ファイルの読み込み

Script 1

%%time
# PDF ファイルの読み込み（30 秒程度掛かります）
# WARNING が出ますが、今回の目的との関係では無視して差し支えありません。
df_list = tabula.read_pdf(os.path.join(DATA_PATH, '2018_co_list_jp_r.pdf'), pages='5-112')

Column Names の変更

Script 2

# Rename columns.
new_column_names = ['state_code', 'location', 'sc_num', 'com_in', 'com_jp', 'biz_type']
# 108 個の DataFrame の column name を統一する。
for each_df in df_list:
  each_df.columns = new_column_names

Non-48-row-DF の整形

108 個の DF のうち、ほとんど（104 個）は 48 rows * 6 columns (最後の DF は 6 rows * 6 columns）で既にきれいに揃っているので、これに下手に整形操作を加えて壊しちゃうと嫌過ぎる。
そこで、問題のある 4 個の DF を含んだリストを隔離（list_df_non_48）し、これに対してだけ修正操作を行うことにします。

Script 3

# Isolate non_48-row type DFs as df_non_48.
list_df_non_48 = [each_df for each_df in df_list if len(each_df) > 48]
list_df_48     = [each_df for each_df in df_list if len(each_df) <= 48]

Script 4

def akb_48(bad_df):
  '''Educate and transform non_48 DataFrames to akb_48 DataFrames'''
  # Create a 'good_df' for output.
  good_df = bad_df.copy()
  bad_df.reset_index()  # Preparation / 念のため
  for i in range(1, len(bad_df) - 1):
    # Find NaN-str-NaN (float-str-float) patterns ('triad' streaches)
    # in the column 0.
    if (
        (type(bad_df.iat[i-1, 0]) == float) &
        (type(bad_df.iat[i  , 0]) == str) &
        (type(bad_df.iat[i+1, 0]) == float)):
      # Target triads in the columns (clm) 3, 4, and 5
      clm_3_triad = [bad_df.iat[i-1, 3], bad_df.iat[i, 3], bad_df.iat[i+1, 3]]
      clm_4_triad = [bad_df.iat[i-1, 4], bad_df.iat[i, 4], bad_df.iat[i+1, 4]]
      clm_5_triad = [bad_df.iat[i-1, 5], bad_df.iat[i, 5], bad_df.iat[i+1, 5]]
      # Merge each triad into one, remove NaN (NaN: dtype = float).
      new_clm_3 = ', '.join([x for x in clm_3_triad if not type(x) == float])
      new_clm_4 = ', '.join([x for x in clm_4_triad if not type(x) == float])
      new_clm_5 = ', '.join([x for x in clm_5_triad if not type(x) == float])
      # Refresh the columns 3, 4, 5 of the good_df (output DF).
      good_df.iat[i, 3] = new_clm_3
      good_df.iat[i, 4] = new_clm_4
      good_df.iat[i, 5] = new_clm_5

  # Drop gargabe rows
  good_df.dropna(subset= ['sc_num'], inplace=True)
  # After dropping rows, reset the index!
  good_df.reset_index(drop=True, inplace=True)
  
  return good_df


if __name__ == '__main__':
  # Create an empty list.
  list_df_yes_48 = []
  # Cleansing
  for bad_df in list_df_non_48:
    good_df = akb_48(bad_df)
    list_df_yes_48.append(good_df)

DF List > Single DF

まだ問題が残っていることを重々承知の上で、これを放置して次に進みます（👈急いては事を仕損じるタイプ）。

df_non_48 を修正した list_df_yes_48 と、取り分けて温存しておいた df_48 とを合体して復元。
復元した df_list_tmp の中身（108 個の DF）を 1 本の単独 DF に concatenate する（つなげる）。
これまでの操作を加えた後で ‘state_code’ が NaN の row は row ごと drop しても大丈夫なので、dropna しておく。
Row を drop したあとは reset_index() して気分一新。

Script 5

# 1. Reconstruct the DF list.
df_list_tmp = list_df_yes_48 + list_df_48 
# 2. Concatenate 108 DFs to produce an intermediate DF.
df_all_intermed = pd.concat(df_list_tmp)
# 3. Remove garvage rows.
df_all_intermed.dropna(subset = ['state_code'], inplace=True)
# 4. Reset the index of the DF.
df_all_intermed.reset_index(drop=True, inplace=True)

中間レビュー

中間産物の describe() を取って、仕上がり具合を確認します（TABLE 5）。

オリジナル PDF の表は複数ページに分かれており、それぞれに表頭が付いています（Microsoft Word でいうと「タイトル行の繰り返し」状態）。このため、df_all_intermed には余分の表頭が含まれています。
- その結果、例えば、TABLE 5 で state_code （基礎知識: インドの州の略記。英字 2 文字。本資料作成時点で 33 種類）の unique が 70 （本来なら 33 のはず）となっているのは、state_code のところに表頭の文字列が入ってしまっているためと推測されます（このことは head() method などを使って簡単に確認できます）。
com_in （現地拠点）の count が 5106 となっているのは良い知らせです（オリジナル PDF の最初に書いてあるように、日系企業の調査時点における現地拠点数は 5102 か所です）。
‘sc_num’ column（州ごとに振ってある拠点番号。当然 integer でなければならない）が decimal っぽくなっています。これは宜しくないのでいずれかのタイミングで修正します。

Script 6

# TABLE 5: Description of the intermediate DF
df_all_intermed.describe()

‘state_code’ column に英字2文字の state code 以外のものが入ってる rows は簡単に drop することができるので、いまは Review 中ですがちょっと作業をして、サクッと drop しておくことにします（👈計画性の欠如）。
結果（TABLE 6）を見ると、’state_code’ の unique もちゃんと 33 になったし、
他の columns も概ね 5102（資料作成時点の現地拠点数）と一致しており、ゴールは近い！

Script 7

for i in range(len(df_all_intermed) - 1):
  if not len(df_all_intermed.at[i, 'state_code']) == 2:
    df_all_intermed.drop(i, inplace=True)
# Don't forget to reset the index.
df_all_intermed.reset_index(drop=True, inplace=True)

Script 8

# TABLE 6: Description of the intermediate DF
df_all_intermed.describe()

☕︎ここで休憩

ここまでの作業結果を、CSV に保存します（Script を走らせると、Google Drive に作った data フォルダの中に ‘df_all_intermed.csv’という名前で保存されます）。

Script 9

# 以下で説明する問題が発覚したため、いったんコメントアウトします。
#df_all_intermed.to_csv(os.path.join(DATA_PATH, 'df_all_intermed.csv'), index=False)

重大事実の発覚😱

Google Drive から df_all_intermed.csv を local に落として、適当なソフトで開いてみると…。

イイね、イイね、完璧じゃん、ほぼ出来上がり😸
…と思いきや、途中から変なところで row が折り返され、shape がメチャメチャになってしまう事案が多発？なんなの、コレ？😱
こりゃ何か変な事をやらかしちゃったかな？と、script 修正を数回試みるも症状は変わらず😭

原因及び対策

しばし茫然自失としていたら、どこからか神様の声が…。

r だよ、r. \r, r’\r’, CR !

ああ、思い出した。自分でも「Column Names の確認」のところで、「Column name に全角文字やスペース、改行文字（\r）などが含まれている。」って書いてるじゃん？
そこで問題の箇所を確認すると、原稿の Excel で「セル内改行」が行われていたとおぼしきところに \r が挿入されていました。
というわけで、やり直し。改行文字（\r）を差し障りのなさそうな文字列 <br> に replace してから保存することにします。

Script 9_rev

# regex で \r を <br> に replace
df_all_intermed.replace(r'\r', r'<br>', inplace=True, regex=True)
# CSV に保存
df_all_intermed.to_csv(os.path.join(DATA_PATH, 'df_all_intermed.csv'), index=False)

Excel で保存したら大丈夫だった

もしかしたら、CSV じゃなくて Excel なら Microsoft 同士だから忖度してくれるんじゃないか、と思って、\r を <br> に replace する前の DF で試したみたところ、
予想に違わず、\r が混入した DF も何の問題もなく期待した形式の表として Excel Book に保存できました（ヤレヤレ…）。

\r 退治はもっと早い段階でやっておいた方が良かったみたいです。このようなヒトクセある「文字」は、陰に陽に悪さをしでかします。今回ももう少し早い段階で \r 退治 を行っていれば、Script 4 あたりの大部分の処理が不要になっていた可能性があります（と言いつつ、検証は行わないのであった 😅）

次回計画

sc_num の data type を int に直す（cf. 中間レビュー 3.）
- これは本来、CSV に落とす前にやっておくべきですが、実は思わぬ伏兵が潜んでいるので次回のお楽しみに。
表全体の並び順をオリジナルに戻す（現状ではTriad 退治の影響で並び順が乱れている）。

次回以降の予定
- ‘biz_type’ の正規化。現状で unique 値が 56 個ですが、これは本当の数の倍ぐらいに増えちゃっています（Triad 退治などの影響）。
- 正規化: ‘com_in’, ‘com_jp’, ‘biz_type’ は別の table に分けて foreign key で引っ張ってくるようにした方が良さそう。

おまけ

上記の script に説明を加えた Jupyter Notebook を pdf_to_csv_prep.ipynb_.zip [9 KB] （Preview）に置いておきました。Colab に upload すればそのまま使えます。

[1] 在インド日本国大使館, （独）日本貿易振興機構 (2019). インド進出日系企業リスト-2018
[2] Aki Ariga, tabula-py (PyPI)
[3] 在インド日本国大使館, （独）日本貿易振興機構 (2020). インド進出日系企業リスト-2019

インドの話をゆっくりと: インド進出日系企業リスト 2019年版が公表されました

Google Colab: PDF to CSV 変換器を Colab に設置 [第一話立志篇] – これでコピペ作業から開放！

Google Colab: PDF to CSV 変換器を Colab に設置 [第三話乱麻篇] – Categorical data は頼れる味方

Google Colab: PDF to CSV 変換器を Colab に設置 [第四話望郷篇] – Pandas を SQL っぽく使う

Google Colab: PDF to CSV 変換器を Colab に設置 [第一話立志篇] – これでコピペ作業から開放！

2020-08-05 by ggcs

原則: PDFデータの再利用には純正アプリの使用がお勧め

PDF to CSV の変換など、PDFデータの再利用はなかなか手間がかかる作業ですが、Adobe Acrobat Pro DC や ABBYY FineReader を使えばこの作業は著しく省力化されます。

前者はサブスクリプション方式（買い切り製品もありますが）、後者は買い切りで、いずれにしてもそれなりのお値段です。正直、高い。

しかし、節約される時間を考えたら十分にお釣りが来ます。

そういうわけで、PDF 絡みの作業は基本的に Acrobat （Reader じゃないよ！）で行っており、月曜日も在インド日本国大使館のインド進出日系企業リスト-2018 [1]から Acrobat Pro DC を使ってデータ抽出を行い、データベースに格納したところでした。

News 2020年08月31日に在インド日本大使館のサイトで「インド進出日系企業リスト-2019」(2019_co_list_jp.pdf)[4] が公表されました。👉 2019版対応 script をこちらで公開しました。

また、上記 2019 年版を元にしたインド進出日系企業検索 [5] データベースを公開しました（2019-09-16）。

だがしかし: PDFデータの再利用には tabula-py が尋常じゃなくお勧め

作業がひと段落し心に余裕ができたので、試しに Python を使って PDFをCSVに変換してみようかなと、改めてモジュールを探してみたところ、とんでもないモジュールを発見。その名もTabula [2]。

そして、GitHub で公開されている Tabula のソースを Aki Ariga さんが Python のモジュールとして公開してくださっているのが、tabula-py [3]です。

この感動をシェアするため、tabula-py を使ってオリジナルの PDF から情報を抽出し、database ready なファイルにするまでの手順を書いてみることにしました。

🤫（以下、小さな声で…）確かにお勧めではあるんですが、仕事で PDF をデータ化する機会が多いのであれば、やはり Acrobat を使うのがお勧めです。また、Acrobat でうまくいかない時は ABBYY を使うとうまくいくことが多々あります。

Python を活用した作業は楽しくて勉強にもなったので、今回の立志篇以下、死闘篇、乱麻篇、そして望郷篇で紹介しましたが、Acrobat を使うと、今回の作業と、死闘篇及び乱麻篇の作業は不要になります 😢

そこで: PDF 表変換ユーティリティーを Colab に設置して楽をしよう

ローカルで作業しても良いのですが、せっかくなのでGoogle Colab/Drive（以下「Colab」）上に仕掛けを作ってやることにしました。こうしておけば、旅先の空港のパソコンでもいつも通りに作業できます（という場面は想像しにくい）。

ここで問題となるのは、Colab には tabula がインストールされていないということです。

もちろん、!pip install を使って Colab 上にモジュールを直接インストールすることはできるのですが、そのようにしてインストールされたモジュールは、 runtime を restart すると消えちゃうハカナイものです(*1)。

そこで、 Google Drive に module をインストールして Colab から見に行くようにしよう – という話は Google Colab/Driveにpipインストール: これなら消えない😃にも書きました。でもこれをいちいち見に行くのも面倒だと思いますので、以下では重複をいとわず全体の手順を書くことにします。

(*1) もしかしたら、このハカナサは積極的な意図に基づくものかもしれませんね。下手に永続化するとメンテナンスの問題が生じるから、数百 MB 程度のファイルは使い捨てにして、毎回新鮮なファイルをダウンロードして使おうとか。OS がトラブったら、問題の切り分け云々に時間を浪費しないで即クリーンインストール！的なポリシー。

今回の作業の流れ

Google Drive 上に必要なフォルダを作る
ディレクトリのセッティングは退屈な作業ですが、我慢して整えておくと後の作業が楽になります。
Google Drive 上に tabula モジュールをインストールする
tabula-py の pip installation が今回のメインです。
読み込み元の PDF を入手し、Google Drive に保存する
インド進出日系企業リスト-2018 を入手して Google Drive に作った data フォルダに格納します。
上記 PDF が tabula で正常に読めることを確認する
PDF ファイルの読み込みテストを行います。

ディレクトリのセッティング

細かい話で恐縮ですが、まずは自分の Google Drive に行って、Fig. 1 のようにディレクトリ（フォルダ）を準備してください。

この辺、本質とはあまり関係ない話ですがディレクトリ構成はパターン化しておいた方が何かと円滑に行くので（というか、こうしておかないと書いてて私自身がわからなくなっちゃうので💦）。

あるいは、PROJECT_ROOT_PATH = ‘.’ としておけば、ローカルマシンでも、作業ディレクトリ以下に同じようなディレクトリ構成ができます。

ただし、その場合 pip install は –target option 無しで行ってください。

MODULE_PATH は、自分でインストールする python modules の置き場所、DATA_PATH は、オリジナルの PDF ファイルの置き場所です。

Fig. 1 は Colab にマウントした Google Drive のデイレクトリを Colab から見た path ですから、直接 Google Drive をブラウザで開いた場合、’Colab Notebooks’ は root 直下のディレクトリになります。

PROJECT_ROOT_PATH と DATA_PATH も一応こんな感じで作っておいてください。

Fig. 1: Google Drive のディレクトリ構成（Google Colab 目線）

MODULE_PATH:       /content/drive/My Drive/Colab Notebooks/my-modules
PROJECT_ROOT_PATH: /content/drive/My Drive/pdf_project
DATA_PATH:         /content/drive/My Drive/pdf_project/data/

スクリプトでやるなら、Google Drive を mount した状態で、Google Colab から Fig. 2 のような感じで。

Fig 2: Google Drive のディレクトリ等の設定

import os
import sys
# tabula はまだインストールされていないので、後で import する。

MODULE_PATH = '/content/drive/My Drive/Colab Notebooks/my-modules'
PROJECT_ROOT_PATH = '/content/drive/My Drive/pdf_project'
DATA_PATH = os.path.join(PROJECT_ROOT_PATH, 'data')

# 上記のディレクトリが無かったら新規作成しておく。
if not os.path.isdir(MODULE_PATH):
  os.mkdir(MODULE_PATH)
if not os.path.isdir(PROJECT_ROOT_PATH):
  os.mkdir(PROJECT_ROOT_PATH)
if not os.path.isdir(DATA_PATH):
  os.mkdir(DATA_PATH)

# PYTHON PATH を通しておく（こうしておかないと python が tabula-py を見つけられない）。
sys.path.append(MODULE_PATH)

tabula-py の pip installation

いよいよ tabula-py のインストールです。

Fig. 3 ではインストール先のオプション（–target）に、上で作った MODULE_PATH を指定しています（これは shell の操作なので、python 内で定義した定数 MODULE_PATH で指示しても「そんなん知らんわ💢」と言われてしまうので、絶対PATH をベタ書きします）。

途中でERRORがでますが、焦らずに待っているとやがて全部うまくインストールされます。

あとで Google Drive を見に行くとわかりますが、依存関係のある packages を全部インストールしてるので、pandas だとか numpy だとか、諸々の packages 一式がインストールされた大所帯になっています😃

一番下に RESTART RUNTIME とあるので、ブラウザ左上の Runtime メニューから Runtime を再起動してください。

Fig 3: tabula-py の pip installation

# path の space を \(back slash) で escape していることに注意。
!pip install --target /content/drive/My\ Drive/Colab\ Notebooks/my-modules tabula-py

Collecting tabula-py
  Downloading https://files.pythonhosted.org/packages/8d/ed/20655a47a603430272c995d908d0dd96f93c2aa8973c8a55a66c8f3b8dfe/tabula_py-2.1.1-py3-none-any.whl (10.4MB)
     |████████████████████████████████| 10.4MB 2.5MB/s 
Collecting distro
  Downloading https://files.pythonhosted.org/packages/25/b7/b3c4270a11414cb22c6352ebc7a83aaa3712043be29daa05018fd5a5c956/distro-1.5.0-py2.py3-none-any.whl
Collecting pandas>=0.25.3
  Downloading https://files.pythonhosted.org/packages/a7/f7/2adca20a7fa71b6a32f823bbd83992adeceab1d8bf72992bb7a55c69c19a/pandas-1.1.0-cp36-cp36m-manylinux1_x86_64.whl (10.5MB)
     |████████████████████████████████| 10.5MB 48.3MB/s 
Collecting numpy
  Downloading https://files.pythonhosted.org/packages/b1/9a/7d474ba0860a41f771c9523d8c4ea56b084840b5ca4092d96bdee8a3b684/numpy-1.19.1-cp36-cp36m-manylinux2010_x86_64.whl (14.5MB)
     |████████████████████████████████| 14.5MB 314kB/s 
Collecting python-dateutil>=2.7.3
  Downloading https://files.pythonhosted.org/packages/d4/70/d60450c3dd48ef87586924207ae8907090de0b306af2bce5d134d78615cb/python_dateutil-2.8.1-py2.py3-none-any.whl (227kB)
     |████████████████████████████████| 235kB 43.9MB/s 
Collecting pytz>=2017.2
  Downloading https://files.pythonhosted.org/packages/4f/a4/879454d49688e2fad93e59d7d4efda580b783c745fd2ec2a3adf87b0808d/pytz-2020.1-py2.py3-none-any.whl (510kB)
     |████████████████████████████████| 512kB 44.0MB/s 
Collecting six>=1.5
  Downloading https://files.pythonhosted.org/packages/ee/ff/48bde5c0f013094d729fe4b0316ba2a24774b3ff1c52d924a8a4cb04078a/six-1.15.0-py2.py3-none-any.whl
ERROR: tensorflow 2.3.0 has requirement numpy<1.19.0,>=1.16.0, but you'll have numpy 1.19.1 which is incompatible.
ERROR: google-colab 1.0.0 has requirement pandas~=1.0.0; python_version >= "3.0", but you'll have pandas 1.1.0 which is incompatible.
ERROR: datascience 0.10.6 has requirement folium==0.2.1, but you'll have folium 0.8.3 which is incompatible.
ERROR: albumentations 0.1.12 has requirement imgaug<0.2.7,>=0.2.5, but you'll have imgaug 0.2.9 which is incompatible.
Installing collected packages: distro, six, python-dateutil, pytz, numpy, pandas, tabula-py
Successfully installed distro-1.5.0 numpy-1.19.1 pandas-1.1.0 python-dateutil-2.8.1 pytz-2020.1 six-1.15.0 tabula-py-2.1.1

RESTART RUNTIME

RUNTIME RESTART 後の手当て

Runtime を再起動したため:

今までのできごとはすべて忘れてしまいました。
なので、Fig. 2 の設定 をもう一度やってあげてください。
それから、肝心の tabula のインストールが完了したので、忘れずに import しておいてください（というか、これが一番大事）。

# tabula の import
import tabula

これって、要するに setup の手順がマズかっただけなんじゃないの？という説もありますが、順序を組み替えると流れ的に辛いのでこのままでご容赦いただきたく。▶️ボタンをポチる手間が 1 回増えただけだし…。

PDF ファイルの読み込み

いよいよ PDF ファイルの読み込みです。

今回は、在インド日本国大使館が公表している「インド進出日系企業リスト-2018」を使います。リンク先のサイトに行って「詳細版」（2018_co_list_jp_r.pdf）をダウンロードしてきてください（そもそもの目的がこのファイルから情報を抽出することでした）。
入手した PDF は、Google Drive の /content/drive/My Drive/pdf_project/data に格納して用意しておいてください。
心配だったら、次の script を走らせて、PDF ファイルが所定の場所にちゃんと置かれていることを確認後、安心して次に進んでください。

# この script を走らせて True と表示されれば OK.
os.path.isfile(os.path.join(DATA_PATH, '2018_co_list_jp_r.pdf'))

読み込みの設定

PDF ファイルの読み込みには、すくなくとも次の 2つの値を与える必要があります。

File path = 今回は、os.path.join(DATA_PATH, '2018_co_list_jp_r.pdf')
読み込ませるページの指定 = 今回は 5-112

読み込ませるページはオリジナルの PDF を見て決めてください。今回の PDF ファイルでは、概要や説明、目次に続く 5ページ目から最後の112ページまで（全 108 ページ）を読み込ませることにします。

%%time
# PDF ファイルの読み込み
# WARNING が出ますが、今回の目的との関係では無視して差し支えありません。
df_list = tabula.read_pdf(os.path.join(DATA_PATH, '2018_co_list_jp_r.pdf'), pages='5-112')

Got stderr: Aug 05, 2020 5:32:12 AM org.apache.fontbox.ttf.CmapSubtable processSubtype14
WARNING: Format 14 cmap table is not supported and will be ignored
# 5,000 行ちょっとを読み込むので少し時間（30 sec ほど）が掛かります。
CPU times: user 432 ms, sys: 31.3 ms, total: 464 ms
Wall time: 26.2 s

ファイルを読み込んだ変数（df_list）の中身

tabula は、読み込んだページごとに内容をそれぞれ Pandads の DataFrame としてまとめます。そしてそれらの DataFrame を包含したひとつの list （DataFrame の list）にして返します。

いま、108 pages （オリジナル PDF pp. 5-112）を読み込んだので、108 個の DataFrame を含んだひとつの list が返ってきているはずです。試しに、len を取ってみると…

# list（df_list）に含まれる DataFrame の数（= 読み込んだ PDF のページ総数）を確認
len(df_list)

108

FYI: Adobe Acrobat で Microsoft Excel に変換した場合は、ページごとに切り分けられず、全体が連続した 1 つの表に変換されます。

DataFrame の内容を確認

ここで試しに、最初（ゼロ番目）の DataFrame の様子 df_list[0]（Fig. 4）と、108 個の DataFrame の shape (Fig. 5) を確認しておきます。

OK! 🍣 🍻 🎉 🍾 ❣️

というわけで、ここまでは問題無さそう(*2)。~~次回、Data cleansing 編に突入し~~第二話死闘篇に続きます。

(*2) 実は Fig. 5 には重大な問題の兆候が明白に現れていたのだった…。

Fig 4: PDF 読み込み結果の確認（最初の DataFrame）

Fig 5: PDF 読み込み結果の確認（DataFrame の shape）

for i, each_df in enumerate(df_list):
  if i % 5 == 0:
    print()
  print('p.'+str(i+5).zfill(3), each_df.shape, ' ', end='')

p.005 (48, 6)  p.006 (48, 6)  p.007 (48, 6)  p.008 (48, 6)  p.009 (48, 6)  
p.010 (48, 6)  p.011 (48, 6)  p.012 (111, 6)  p.013 (48, 6)  p.014 (48, 6)  
p.015 (48, 6)  p.016 (48, 6)  p.017 (48, 6)  p.018 (48, 6)  p.019 (48, 6)  
p.020 (48, 6)  p.021 (48, 6)  p.022 (48, 6)  p.023 (48, 6)  p.024 (48, 6)  
p.025 (48, 6)  p.026 (48, 6)  p.027 (48, 6)  p.028 (48, 6)  p.029 (48, 6)  
p.030 (48, 6)  p.031 (48, 6)  p.032 (48, 6)  p.033 (48, 6)  p.034 (48, 6)  
p.035 (48, 6)  p.036 (48, 6)  p.037 (48, 6)  p.038 (48, 6)  p.039 (48, 6)  
p.040 (48, 6)  p.041 (48, 6)  p.042 (48, 6)  p.043 (48, 6)  p.044 (48, 6)  
p.045 (48, 6)  p.046 (48, 6)  p.047 (48, 6)  p.048 (48, 6)  p.049 (48, 6)  
p.050 (48, 6)  p.051 (48, 6)  p.052 (48, 6)  p.053 (48, 6)  p.054 (48, 6)  
p.055 (117, 6)  p.056 (48, 6)  p.057 (48, 6)  p.058 (48, 6)  p.059 (48, 6)  
p.060 (48, 6)  p.061 (48, 6)  p.062 (48, 6)  p.063 (48, 6)  p.064 (48, 6)  
p.065 (48, 6)  p.066 (48, 6)  p.067 (48, 6)  p.068 (48, 6)  p.069 (48, 6)  
p.070 (48, 6)  p.071 (48, 6)  p.072 (48, 6)  p.073 (48, 6)  p.074 (48, 6)  
p.075 (48, 6)  p.076 (48, 6)  p.077 (48, 6)  p.078 (48, 6)  p.079 (48, 6)  
p.080 (48, 6)  p.081 (48, 6)  p.082 (48, 6)  p.083 (48, 6)  p.084 (48, 6)  
p.085 (48, 6)  p.086 (48, 6)  p.087 (48, 6)  p.088 (48, 6)  p.089 (48, 6)  
p.090 (48, 6)  p.091 (48, 6)  p.092 (48, 6)  p.093 (111, 6)  p.094 (110, 6)  
p.095 (48, 6)  p.096 (48, 6)  p.097 (48, 6)  p.098 (48, 6)  p.099 (48, 6)  
p.100 (48, 6)  p.101 (48, 6)  p.102 (48, 6)  p.103 (48, 6)  p.104 (48, 6)  
p.105 (48, 6)  p.106 (48, 6)  p.107 (48, 6)  p.108 (48, 6)  p.109 (48, 6)  
p.110 (48, 6)  p.111 (48, 6)  p.112 (6, 6)

Main Takeaways

今日は以下の作業を片付けました。

Google Drive 上に必要なフォルダを作った
Google Drive 上に tabula モジュールをインストールした
2018_co_list_jp_r.pdf を入手し、Google Drive に保存した
3. の PDF が tabula で正常に読めることを確認した（🤥）

次回の準備

次に作業再開するときのため、Fig. 6 の script を Google Colab の Notebook に貼り付けて、たとえば pdf_to_csv_prep.ipynb など適当な名前をつけて、Colab のメニューから File > Save a copy in Drive で保存しておいてください。

ここまで準備しておけば、次回は上記 4. から再開することができます。

Fig 6: 次回の準備（pdf_to_csv_prep.ipynb）

  # Google Drive のマウント。
  from google.colab import drive
  drive.mount('/content/drive')

  # Modules の import.
  import os
  import sys
  # PATH を通す（Python に modules の場所を教える）
  MODULE_PATH = '/content/drive/My Drive/Colab Notebooks/my-modules'
  sys.path.append(MODULE_PATH)
  import tabula  # Module の場所を教えたので、import.

  # ディレクトリ構造を定義する。
  PROJECT_ROOT_PATH = '/content/drive/My Drive/pdf_project'
  DATA_PATH   = os.path.join(PROJECT_ROOT_PATH, 'data')
  OUTPUT_PATH = os.path.join(PROJECT_ROOT_PATH, 'output')

print('準備完了 🍻')

謝辞

在インド日本国大使館が継続的に公表している「インド進出日系企業リスト」（在インド日本国大使館、ジェトロ）には 10年以上にわたり大変お世話になっています。

この極めて貴重なリソースがより多くの方々に活用されるようになる上での一助として、もし本記事が貢献できればと願うものです。

この場を借りて、在インド日本国大使館及びジェトロのみなさまに感謝申しあげます。

GGCS

References

[1] 在インド日本国大使館, （独）日本貿易振興機構 (2019). インド進出日系企業リスト-2018
[2] tabulapdf, Tabula
[3] Aki Ariga, tabula-py (PyPI)
[4] 在インド日本国大使館, （独）日本貿易振興機構 (2020). インド進出日系企業リスト-2019
[5] ごたごた気流調査所 (2020). インド進出日系企業検索

インドの話をゆっくりと: インド進出日系企業リスト 2019版が公表されました

Google Colab: PDF to CSV 変換器を Colab に設置 [第二話死闘篇] – NaN は dtype: float で捕捉！

Google Colab: PDF to CSV 変換器を Colab に設置 [第三話乱麻篇] – Categorical data は頼れる味方

Google Colab: PDF to CSV 変換器を Colab に設置 [第四話望郷篇] – Pandas を SQL っぽく使う

PDF

望郷篇の能書き

望郷篇に登場する伏兵

最終回の作業の流れ

前提

手順

それでは始めます。

作業準備

作業中のデータの読み込み

業種マスターの読み込み

修正用 DF の読み込み

com_jp column の微修正

マスターテーブルの準備

修正用 DF の適用

業種データの正規化

CSV ファイルに保存

おまけ

References

乱麻篇の能書き

乱麻篇に登場する伏兵

今回の作業の流れ

それでは始めます。

作業準備

作業中のデータの読み込み

州ごとの連番列 (sc_num column) の準備

州略記列 (state_code colunn) の準備

Let’s SORT!

作業データの保存

Main Takeaway

次回計画

Sneak Preview

おまけ

前回までのあらすじ

死闘篇の能書き

死闘篇に登場する伏兵たち

それでは始めます。

作業準備

PDF ファイルの読み込み

Column Names の変更

Non-48-row-DF の整形

DF List > Single DF

中間レビュー

☕︎ここで休憩

重大事実の発覚😱

原因及び対策

Excel で保存したら大丈夫だった

次回計画

おまけ

原則: PDFデータの再利用 には純正アプリの使用がお勧め

だがしかし: PDFデータの再利用 には tabula-py が尋常じゃなくお勧め

そこで: PDF 表変換ユーティリティーを Colab に設置して楽をしよう

ディレクトリのセッティング

tabula-py の pip installation

RUNTIME RESTART 後の手当て

PDF ファイルの読み込み

読み込みの設定

ファイルを読み込んだ変数（df_list）の中身

DataFrame の内容を確認

Main Takeaways

次回の準備

謝辞

References

原則: PDFデータの再利用には純正アプリの使用がお勧め

だがしかし: PDFデータの再利用には tabula-py が尋常じゃなくお勧め