.. toctree::

===================
6. ファイルの読書き
===================

入出力するデータが膨大であれば、ファイルから読んだり書き出したりした方
が便利です。測定したデータは、一般にファイルに保存されるのでpythonでデー
タファイルを読んで処理できれば便利です。またプログラムで処理した結果を
ファイルに保存できれば、別のソフトウェアで読んで処理することもできます。
第6回では、ファイルからデータを読んだり、ファイルにデータを書き込む(保
存する)方法を学習します。第6回講義の目的は以下のとおりです。

* ファイル識別子を使ってファイルのデータを読み書きする方法を学ぶ。
* ファイルからデータを読む方法を理解する。
* プログラムの処理結果をファイルに書き出す方法を理解する。

ファイルの種類
==============

.. csv-table:: 
   :header: "形式", "中身"
   :widths: 10, 40

   "ascii", "人間の目で確認できる文字列"
   "binary", "人間の目で確認できないデータの並び"

ファイルの種類は、大きく分けてasciiをbinaryに2種類です。binary形式の方
がファイルサイズは圧縮できますし、データをそのまま保存できますが、ファ
イルの中身を人間の目で見て理解できません。また、ハードウェアの違うコン
ピュータでデータを読むために特別な処理が必要になります。巨大なファイル
を保存する場合、バイナリ形式を使うこともありますが、ファイルの扱いやす
さからasciiファイルの読み書きだけを講義で取扱います。

.. note::

 ダブルクリックでファイルを開く場合、OS(windows等)が拡張子でソフトウェ
 アを判断して(docxだとword, xlsxだとexcel等)ファイルを開きます。どのプ
 ログラムでファイルを開くかの判断は、拡張子をOSが判断してプログラムを
 選択しているだけで、ファイルの中身とソフトウェアが関連付けられていな
 いことに注意してください。

ファイルパス
============

ファイルの置き場所は、パスと呼ばれます。パスの指定方法はいくつかあるの
で下にまとめています。

.. csv-table:: 
   :header: "指定方法", "例"
   :widths: 1, 4

   "絶対パス", "C:/home/hoge/huga/hoge.dat C:からファイルのパスを全て指定する。"
   "相対パス", "hoge/hoge.dat (hogeディレクトリの中のhoge.dat) ../hoge.dat (一つ上のディレクトリのhoge.dat)等、相対的にファイルのパスを指定する。"
 
ファイル名を指定する場合、 pythonのプログラムが置かれたフォル
ダを起点とした相対パスまたは絶対パスでファイル名を指定します。

ファイル記述子
==============

ファイルの読み書きは、*open()* 文でファイル識別子を作成して行います。
ファイルを読み書きするためのモードを指定して、open()文で変数(識別子)を
定義します。open文の書式は以下のとおりです。

.. code-block:: python
 :caption: example-01
 
 file_description = open(filename, mode, encoding="utf8")
  
読み書きするためのモードは、ファイルを読む書く等でいくつか指定できます。
https://docs.python.jp/3/library/functions.html#open

講義ではよく使う3つのモードだけ紹介します。

.. list-table::
 :header-rows: 1
 :widths: 1,3

 * - モード
   - 機能
 * - "r"
   - 読み込みモードでファイルを開く。(モードを指定しない場合のdefault)
 * - "w"
   - 書き込みモードでファイルを開く。ファイルが存在する場合は、上書きされる。
 * - "a"
   - 追加書き込みモードでファイルを開く。

ファイルを読み書きするためのファイル識別子を作成する例です。

.. code-block:: python
 :caption: example-02
 :linenos:
 
 f = open("hoge.txt", "r")                         # pythonプログラムと同じフォルダにあるhoge.txtを読込みモードで
 f = open("../hoge.txt", "w")                      # 1つ上のフォルダにあるhoge.txtを書込み読込みモードで
 f = open("huga/hoge.txt", "a")                    # hugaに入っているhoge.txtを追加書込みモードで
 f = open("Z:/コンピューター処理/day06/test.txt")  # ファイルをフルパスで指定, 読み込モード(デフォルト)
 
日本語等のascii文字以外の文字列を含むファイルを開く場合、endodingを指
定しないとエラーになることがあります。Pythonがファイルを読む時、open文で
指定するエンコード方式と、ファイルの内容のエンコード方式が一致しない場
合、文字化けすることになります。ややこしいですが、歴史的に2つの日本語
のエンコード(文字コード)方式がこれまでに使われてきました。

.. csv-table::
 :header-rows: 1
 :widths: 20, 20
	    
 "エンコード", "OS"
 "SHIFT_JIS または cp932", "windows"
 "EUC_JP", "Linux等のUNIX"

日本ローカルなエンコードと異なり、UTF-8は世界中に様々な言語の文字を取
り扱うためのエンコード方式です。UTF-8は世界中のすべての言語を取り扱う
ことができるため、今後より普及するかと思います。encodingを指定しない場
合、windows上ではOS標準のcp932でエンコードしたファイルを想定して、ファ
イルを読もうします。講義で配布するファイルはUTF-8で統一しています。配
布したファイルを開く場合、encoding="utf8" を指定してください。書
き込みも同様、encodingを指定しない場合は、OS標準のエンコードが適用され
ます。また、Excelで読み込ませるcsvファイルは、cp932でエンコードしてお
かないと日本語が文字化けしてしまいます。なお日本語を含まないファイルで
あれば、特にエンコード方式に気を払う必要はありません。

ファイルの読み込み
==================

ファイルを読む手順は、「*open()*」文で作成した識別子にread()等のメソッ
ドを適用して行いますファイルは、読みたい(開きたい)ファイルを"r"モード
でopenする必要があります。作成した識別子に「*read()*」や
「*readlines()*」メソッドを作用させてデータを読みます。read()と
readlines()メソッドの機能は以下のとおりです。

.. csv-table::
 :header-rows: 1
 :widths: 4, 6
	    
 "メソッド名", "機能(戻り値)"
 "read()", "ファイルの内容が丸ごと入った1つの文字列"
 "readlines()", "ファイルの内容の1行が文字列要素となったリスト"

:download:`test.txt <./test.txt>` の内容をプログラムで読んで処理してみます。
:download:`test.txt <./test.txt>` を右クリックして対象を保存するを選択し、pythonプログラムのフォ
ルダと同じ場所に保存します。 :download:`test.txt <./test.txt>` の内容は以下のとおりです。

.. code-block:: none

 大学（だいがく、英: college、university）は、学術研究および教育におけ
 る高等教育機関である。

 x             y
 1.08330781158 0.883512044446
 2.16661562317 0.827688998157
 3.24992343475 -0.108119018424
		
このファイルをread()やreadlines()で読み込んでみます。 

.. code-block:: python
 :caption: example-03
 :linenos:
 
 # test.txtをまるごと読み込む
 f = open("test.txt", "r", encoding="utf8")      # ファイル識別子fを作成, utf8のエンコード。defaultのcp932だとエラーになる
 data = f.read()                                 # fにread()メソッドを適用してファイルの中身を丸ごとdataにいれる
 print(data)                                     # dataの出力
 
 # test.txtの1行を要素とするリストとして読み込む
 f = open("test.txt", "r", encoding="utf8")      # ファイル識別子fを作成
 data = f.readlines()                            # fにreadlines()を適用して1行毎のリストを生成
 print(len(data))                                # dataの要素数=行数を表示
 for l in data:                                  # data を1行ずつ出力
     print(l)

csvファイルの読み込み
---------------------

Excelで読み書きできるcsvファイルを読んでみます。拡張子がcsvのファイル
はExcelがcsvファイルと解釈してセルにデータを割り当てて読み込んでくれま
す。csvファイルのフォーマットは以下のとおり。1行のデータを列毎に","で
区切ります。csvファイルの例です。 :download:`job.csv <job.csv>` 
	  
.. code-block:: none

 category,2010,2011,2012,2013,2014,2015,2016
 A,94.40%,91.30%,89.30%,89.20%,90.00%,91.40%,92.80%
 B,97.70%,96.70%,90.60%,92.70%,95.10%,95.80%,96.40%
 C,98.80%,98.90%,93.60%,89.00%,94.90%,95.00%,95.40%
 .
 .
 .

:download:`job.csv <job.csv>` を二次元のリストに読み込むプログラムを作成しています。

.. code-block:: python
 :caption: example-04
 :linenos:
 
 lines = open("job.csv", "r").readlines()    # 1行毎にリストを作成, 日本語を含まないのでencodeは気にしない
 data = []
 for l in lines:
     data.append(l.split(","))               # ,でsplit()しながらデータを追加
 for l in data:                              # 1行毎に出力
     print(l)


.. note::

 Excelは、csvファイルを読む際、cp932(shift-jis)でエンコードをされてい
 ることを想定しているので、pythonでencoding="utf8"で日本語を含むcsvファイルを作成すると
 文字化けします。日本語を文字化けせずにexcelに読み込ませるためには、
 cp932でエンコードしたファイルを作成する必要があります。
     

xyzファイルの読み込み
---------------------

分子構造を描画するための原子の種類と原子座標を表現するために、いくかの
ファイルフォーマットが使われています。もっとも単純なファイルフォーマッ
トは、以下のようなxyzファイル(:download:`Al2O3.xyz <./Al2O3.xyz>`)です。 

.. code-block:: none

 486
 comment
 O    3.302190    0.000000    3.248500
 O    3.302190    0.000000   16.242500
 O    0.921890    4.122801    3.248500
 O    0.921890    4.122801   16.242500
 .
 .
 .
 496個分のx, y, z座標(angstrom単位)が並ぶ

xyzファイルで作成した分子構造はVESTAで可視化することができます。 VESTAのインストールは次のページを参照してください。(:doc:`../19_Vesta/vesta`)
:download:`Al2O3.xyz <./Al2O3.xyz>` をプログラムで読んで原子座標の部分を表示させてみます。

.. code-block:: python
 :caption: example-05
 :linenos:

 f = open("Al2O3.xyz", "r", encoding="utf8")
 lines = f.readlines()  # 1行毎にリストを作成
 atoms = int(lines[0])                       # 1行目は原子数
 comment = lines[1]                          # 2行目はコメント
 symbol, x, y, z = [], [], [], []
 for l in lines[2:]:
     data = l.split()
     symbol.append(data[0])                  # 原子名
     x.append(float(data[1]))                # x座標
     y.append(float(data[2]))                # y座標
     z.append(float(data[3]))                # z座標
 
 # スペース区切りで出力     
 for s, i, j, k in zip(symbol, x, y, z):
     print("{} {} {} {}".format(s, i, j, k))

	  
..
   アンケートの統計
   ----------------

   .. image:: 2017-11-22/statistics.png
    :width: 800px
    :align: center

   講義後に追加
   ============

   大窪がメモしたファイルを置いておきます。参考にしてください。
   :download:`第7回講義メモ <./第7回講義メモ.pdf>`

     
ファイルの書き出し
==================

ファイルにデータを書き出すためには、「*open()*」を使って書き込みモード
でファイル識別子を作成し、作成した識別子にwrite()メソッドを用います。0
から99までの整数を2乗した数値をoutput.txtに書き込んでみます。

.. code-block:: python
 :caption: example-06
 :linenos:

 f = open("output.txt", "w")                      # 書き込みモードでファイル識別子を作成
 f.write("# test data\n")                         # 書き込み
 f.write("{:>4s} {:>8s}\n".format("x", "x**2"))   # 書き込み
 for i in range(100):                             # 0から100までの整数
     f.write("{:4d} {:8.0f}\n".format(i, i**2))   # 2乗した整数をformatで整形して保存

.. note::

 print()と異なって、write()は自動で改行コードをファイルに書き込みま
 せん。改行させたい場合は、改行させたいところに改行コード(\\n)を指定するようしてく
 ださい。
     

もう少し実用的な例として :download:`test.txt <./test.txt>` を読み込んで、ヘッダ(header.txt)とデータ(data.txt)に分離して保存する例です。

.. code-block:: python
 :caption: example-07
 :linenos:
 
 f = open("test.txt", "r", encoding="utf8")   # readlines()メソッドで1行ごとのリストを読み込み
 lines = f.readlines()                        # readlines()メソッドで1行ごとのリストを読み込み
 head = "".join(lines[0:3])                   # head部分を結合した文字を生成
 dat = "".join(lines[3:])                     # head部分を結合した文字を生成
 h = open("header.txt", "w")                  # ヘッダー保存用のファイル識別子
 o = open("data.txt", "w")                    # データ保存用のファイル識別子
 h.write(head)                                # write()メソッドで書き込み
 o.write(dat)                                 # write()メソッドで書き込み
 print("header.txt was created")              # ファイル出力のお知らせ
 print("data.txt was created")                # ファイル出力のお知らせ

csvファイルの書き出し
---------------------

:download:`Al2O3.xyz <./Al2O3.xyz>` のデータを読んで原子座標をcsvファイルで書き出してみます。

.. code-block:: python
 :caption: example-08
 :linenos:
 
 lines = open("Al2O3.xyz", "r").readlines()    # 1行毎にリストを作成
 atoms = int(lines[0])                         # 1行目は原子数
 comment = lines[1]                            # 2行目はコメント
 symbol, x, y, z = [], [], [], []
 for l in lines[2:]:
     data = l.split()
     symbol.append(data[0])                    # 原子名
     x.append(float(data[1]))                  # x座標
     y.append(float(data[2]))                  # y座標
     z.append(float(data[3]))                  # z座標
 
 # スペース区切りで出力
 o = open("Al2O3.csv", "w", encoding="cp932")  # 書き込み用の記述子作成, csvはcp932で作成
 for s, i, j, k in zip(symbol, x, y, z):
     fmt = "{},{},{},{}\n"
     o.write(fmt.format(s, i, j, k))           # .write()で書き込み
 print("Al2O3.csv was created.")               # 書き込み終了の表示

作成したAl2O3.csvをダブルクリックすれば、excelが開いてくれます。

.. image:: excel.png
 :width: 400px
 :align: center


xyzファイルの書き出し
---------------------

四面体構造のCH4(メタン)をプログラムで作成し、xyz形式で出力してみます。C-H結合長さは1.087 Angです。
`wikipedia <https://ja.wikipedia.org/wiki/%E3%83%A1%E3%82%BF%E3%83%B3>`_ 参照

.. _CH4:

.. code-block:: python
 :caption: example-09
 :linenos:

 outfile = "CH4.xyz"                   # 出力するファイル名前
 l = 1.0870/(3**0.5/2)                 # C-H bondlength * 3**0.5/2
 print("C-H bond length: {:.5f} Ang.".format(l * 3**0.5 / 2))  # C-H結合長さの表示
 # 立方体の対角頂点座標からHの座標を作成。立方体の中心はC原子
 data = [["H", 0, 0, 0],
         ["H", l, l, 0],
         ["H", l, 0, l],
         ["H", 0, l, l],
         ["C", 0.5 * l, 0.5 * l, 0.5 * l]]
 
 o = open(outfile, "w")                 # 書き込み用記述子の作成
 o.write("{}\n".format(len(data)))      # 1行目は原子の数
 o.write("CH4\n")                       # 2行目はコメント
 for d in data:                         # 3行目以降、symbol x y zの並びでデータを出力
     o.write("{:2s} ".format(d[0]))
     o.write("{:.8f} ".format(d[1]))
     o.write("{:.8f} ".format(d[2]))
     o.write("{:.8f} ".format(d[3]))
     o.write("\n")
 print(outfile, "was created.")         # 出力終了のお知らせ

vestaで作成したCH4.xyzを開いて、構造とC-H結合距離を確認してみます。

.. image:: CH4.png
 :width: 600px
 :align: center


..
   アンケートの統計
   ----------------

   .. image:: 2017-11-29/statistics.png
    :width: 800px
    :align: center

   講義後に追加
   ============

   大窪がメモしたファイルを置いておきます。参考にしてください。
   :download:`第8回講義メモ <./第8回講義メモ.pdf>`

	 
クイズ
======

Q0
--

Toluene.xyzを読んで、2行目以降の元素記号、x, y, z座標を表示する。forで回して出力すること。

答え

.. literalinclude:: quiz-0.py


Q1
--

元素名と原子番号のデータ :download:`problem-01.txt <./problem-01.txt>`
を読んで、 :download:`problem-01_align.txt <./problem-01_align.txt>`
ような2列の成形したデータを別ファイルとして保存する。1列の文字幅は20と
する。

ヒント

#. open()で読み込みモード、encoding="utf8"で識別子fを生成してファイルを開く
#. read()を使ってfから丸ごと文字列データ(body)を読む
#. bodyをsplit()で分割してリスト(body)を生成   
#. open()で書き込み用に識別子gを生成して、encoding="utf8"でファイルを開く
#. bodyをenumerate()でforループをつくる。
#. gへ"{:20s}.format()"を使って要素を書き込み。
#. 要素番号が奇数だったらgへ改行コードを書き込み

答え

.. literalinclude:: problem-01.py

Q2
--
     
県別の平均寿命データ :download:`lifetime.txt <./lifetime.txt>` を読ん
で平均寿命が5番目に長い県を調べる。

ヒント

#. open()でencoding="utf8"でファイルを開く
#. readlines()でデータを行毎のリスト(lines)として読む
#. 1と2行目のデータはすてる。lines = lines[2:]
#. 県名(pref)と平均寿命(age)を保存する空のリストを作成   
#. forで回しながら、1行のデータをsplit()する
#. split()したリストの要素数が2でなければデータを含まないのでスキップ(continue)
#. sorted()してsortしたage_sortをつくる
#. age_sortの[-5]が5番目に寿命の長いデータ(age_five)になる。
#. sortしていないageにindex()を使ってage_fiveの要素番号(idx)を取得する。
#. idxのprefを表示する。

答え

.. literalinclude:: problem-02.py
    
Q3
--

:math:`x = 0, 0.1, 0.2, ..., 100` の数列から以下の式で :math:`y` を計算して
:download:`xydata.csv <xydata.csv>` と :download:`xydata.txt <xydata.txt>` と内容が同じになるようなファイルを生成する。
(:math:`x` と :math:`y` が列になったデータをファイルに出力し、最終行に :math:`y` の平均値を保存する)。列の幅や出力する桁数も同じにすること。生成したcsvファイルはexcelで開いて内容を確認できます。

.. math::

 y = \sqrt{2x^2 + 3x} + \frac{1}{5}


ヒント

#. while文でxとyのデータを生成する。(forでも良い。お好みで)
#. xydata.txtとxydata.csvに書き出すための識別子をopen()文で作成する。 xydata.txtはencoding="utf-8"、xydata.csvはencoding="cp932"とする。
#. forで回しながら、xydata.txtとxydata.csvにwrite()で1行毎にデータを書き込む
#. 最後に平均値sum(y)/len(y)を出力   

答え

.. literalinclude:: problem-03.py
 :linenos:

Q4
--

example-09を改造してCH4をx方向に5.0 Ang.シフトしたCH4を加えて、2つのCH4構造をもつxyzファイルを作成する。VESTAで構造をみると以下のような構造になります。

.. image:: CH4-5x.png
 :width: 400px
 :align: center


**(要注意)data_new = data** のようなリスト変数の代入(参照コピー)は使わないこと。関数のところで説明しますがdataのポインタがdata_newにコピーされ要素のコピーは行われません。

ヒント

#. example-09の要領でCH4の原子座標を定義する。
#. 出力用のファイルをopen()する
#. 2つのCH4分の原子数を1行目に出力
#. 2行めのコメントを出力
#. シフトしないCH4のデータ(元素記号 x y z)の出力
#. x方向に5 Ang.シフトしたCH4データ(元素記号 x y z)の出力

答え

.. literalinclude:: problem-04.py
 :linenos:

Q5
--

:download:`Al2O3.xyz <./Al2O3.xyz>` のデータを読んで、
241番のAl原子(x, y, z) = (2.38030, 1.37427, 12.74924)から
2.5 Å以内に存在する原子だけのxyzファイルを作る。vestaで確認すると以下のような構造になります。

.. image:: Al2O3_unit.png
 :width: 250px
 :align: center

ヒント

#. example-05の要領でxyzファイルの座標データを読み込む
#. 2.5Å以内に存在する原子データを保存するための空リストsymbol_c, x_c, y_c, z_cを定義する。    
#. 全原子について、241番目の原子(要素番号240)との距離をforで計算する。
   (距離は((x-x0)**2 + (y-y0)**2 + (z-z0)**2)**0.5で計算
#. forループの中で求めた距離が2.5Å以下ならsymbol_c, x_c, y_c, z_cにデータをappendする。
#. example-09の要領でsymbol_c, x_c, y_c, z_cをファイルに書き出し。

答え

.. literalinclude:: problem-05.py
 :linenos: