mishima-syk / py4chemoinformatics Goto Github PK

View Code? Open in Web Editor NEW

217.0 16.0 85.0 34.63 MB

Python for chemoinformatics

License: Other

Jupyter Notebook 99.98% Shell 0.02%

chemoinformatics scikit-learn cheminformatics python rdkit jupyter

py4chemoinformatics's Introduction

English version of Python for Chemoinformatics (pdf)

みんなのPython 第4版
Javascript,Java　カンマ後に半角スペースが欲しい
その他ローカルコミュニティなど
『勉強会やコミュニティのあつまり』 -> 『勉強会やコミュニティの集まり』
udemy/python
『周りの評判を効いてみても』 -> 『周りの評判を聞いてみても』
Qiita
『大抵答えが見つかるとはず』突然のヒロシ調！ -> "と"を削除、『大抵答えが見つかるはず』
Jupyter notebookで便利に使おう　以降、Pythonで機械学習をするために　も
Jupyter notebook, jupyter notebook が混在していて気になる。別に気にならないなら放置でも。本質とは関係ないし。
Pythonで機械学習をするために
chemoinformatics　カタカナ表記で統一かと思ってたけど違うのかしら？

English version

It is useful for translate the document from Japanese to English for some people....
This is not issue, just memo.

Matched Molecular Pairによる化合物ネットワークがよくわからない

実行した結果、どういうことがわかるのかの説明が欲しいです

ch01気になっている

化合物デザインはイノベーティブ
『どのような化合物を作るべきか?、またそれをどのように化合物を合成するか?』
『どのような化合物を作るべきか?、またそれをどのように合成するか?』？
化合物関連データベースの歴史
公開データベースがないという状況はオープンネスを失わせる要員の一つでした
要因
おまけ2
全体で『ケモインフォマティクス』と統一されているので（たぶん）、
『chemoinformatics, bioinformaticsと括る』のところが毎度気になります。気にしすぎ？
Chemoinformatics or Bioinformatics?　はもちろんそのままで良いと思いますし、これに沿った記載なのかも知れませぬが…

ch01タイポ

そういう領域に対してもAIと呼ばれるものが進出がここ数年(2017-2019)で急速に進みました。
↓　こうでしょうか？
そういう領域に対してもAIと呼ばれるものの進出がここ数年(2017-2019)で急速に進みました。

ch02気になる部分

Anacondaのインストール方法
『アナコンダの公式サイト』ってここだけ急に日本語！
『ついでLinuxであれば』の前に謎のスペースが！
インストールしたパッケージの説明、RDKit
オープンソースソフトウェア（OSS) -> "（"が全角、")"が半角。最初の"（"を半角にすれば気にならない
git
『本書ではgitについては説明しませんのでもしGitについて全然知らない』　タイトルも含め、git, Gitが混在してましゅ
Condaについてもう少し詳しく
『本書執筆時点でconda-forgeで配布されているRDKitのパッケージが要求するPythonのバージョンが3.6となっています』　なんか気になる

9章　注釈

confusion matrixとは
F1スコアとは
R2スコアとは
インピーダンスミスマッチとは

F1スコア、R2スコアの計算結果・値は見れないですか？AsciidocはMarkdownだから、コマンドの評価した結果は見れないですかね？

google colabについて

https://github.com/Mishima-syk/sklearn-tutorial
にリンクを張ろうと思うので載せましょう

8章の事例面白くない

いくつかの異なる製薬企業で同じターゲットが骨格かぶっているかいないかの例に変更する

ch03 sklearnチュートリアルへのリンクを張る

sklearnチュートリアルをちゃんと動くようにしてきちんと注釈つけたらリンクを張る

page 44 : KerasとTensorflowでどちらがどちらを内包している関係なのかがわかりません。Kerasの中でTensorflowが動いているのか、TensorflowがKerasを動かしているのか？
page 44 : 隠れ層が"分岐"というところがあまりイメージできませんでした。1つのシナプスが次のレイヤーの複数のシナプスにつながるところですか？深層学習では一般的に言われているフレーズでしょうか？
page 51 : Epochsは増やしすぎると過学習するというのは知らなかったのですが、何か参考文献はありますか？
page 53 : DNNが自動で特徴量を作るという説明（例えば画像でSIFTを使わずPrimitiveなデータ（ピクセル？）のまま古典的な機械学習手法を使うとうまくいかなかったのでしょうか？変数選択はあらゆる機械学習手法が自動でやってそうですが）

第４章の公開データベースの追加候補

以下の二つを追加するのはいかがでしょうか？

ZINC: http://zinc.docking.org/ 購入可能な化合物の大規模データベースたまに論文にも使われています
DrugBank: https://www.drugbank.ca/ 最近ライセンスがCreative Common’s Attribution-NonCommercial 4.0 International Licenseになったので企業の方はちょっと使いにくいですが

12章の生成モデルとは

生成モデルに関する説明を加えたほうがよい

ch01おまけ2

chemoinformatics,bioinformatics の部分、カンマの後ろに半角スペースが欲しいです

章の最初にJupyter Notebookのリンクを追加

なんかいいアイコンとかないかな？

ch06 類似性の説明

図入りで説明しておいたほうがいいの？

ch06 で計算されている Fingerprint が FCFP4

ch06 で

今回はこのECFP4(Morgan2)を利用した類似性評価をしてみましょう。

と書いてありますが

apx_fp = AllChem.GetMorganFingerprint(apx, 2, useFeatures=True)
rvx_fp = AllChem.GetMorganFingerprint(rvx, 2, useFeatures=True)

と、 useFeatures=True となっており FCFP4 で計算されていると思います。
あと Jupyter Notebook の方では

fp1 = AllChem.GetMorganFingerprint(mol1, 2, useFeatures=True)
fp2 = AllChem.GetMorganFingerprint(mol2, 2, useFeatures=True)

DataStructs.TanimotoSimilarity(fp1, fp2)

と書かれてこちらも useFeatures=True となっています。
PDFの方では fp1, fp2 を発生させるところは省略されていますがこれは意図しているのでしょうか？
ミスでしたら追加してあげた方が良いと思いました。いかがでしょう？

8章のデータダウンロードの説明不要

4章でせつめいしたのでそちらに沿った形に書き換える

ch10 導入の説明がわかりにくい

ch10 導入の説明がわかりにくい、いきなりニューラルネットの層の話をされても初心者には全くわからない

[pdf]気になる点についていくつか

・「RDKitで構造情報を取り扱う」の最初に本章のJupyter notebookへのリンクがあり、
とても便利と感じました。他の章でも、同様のリンクがあれば更に便利だと思いました。
・各セルの出力内容の記載がある場合とない場合があり類推して読むことがありました。

以下は個人的要望ですので参考程度でかまいません。
・個人的に、この入門書を読んだ後に読み進むべき文献や勉強方法があると感激します。
・実際の業務での流れの一例(解説した章のまとめになるもの？)があると感激します。
ケモインフォマティシャンが周りにいない人(自分ですが)は、実際に行われた流れ(に近いもの)があれば、
とても勉強になりますし、こういう話は集会に参加することでしか得られない情報となりがちで貴重に思います。

ヘテロシャッフリングの例が欲しい

キナーゼ阻害剤を例にしてシャッフリングする例を追加するといいような気がする

ch04 ChEMBLの秘密

https://www.nature.com/articles/nchembio.354
http://chembl.blogspot.com/2009/11/faq-where-can-i-download-starlite.html

ipynbへのリンクが間違っている

ch番号しか変わってない

ch02 RDKit日本語サイトのこと

最近では日本語での解説サイトも増えてきており初学者の導入のハードルも低くなってきています。

インストレーションの章で説明すること？

SMILESとFPの説明とそれらの違いを丁寧に説明する必要がある

ライセンス

CC BY-NC-SAでよいと思うけど？
https://creativecommons.org/licenses/by-nc-sa/4.0/deed.ja

graphvizで章を読む順番のグラフを用意したい

LICENSEを明記

リポジトリには含めているけどpdfには表記されていないのでライセンスのサブセクションを追加する

ch07 MCSの説明

最大共通部分構造Maximum Common Substructure(MCS)探索はケモインフォマティクスの分野でよく利用される手法です。これは、類似性探索、クラスタリング、分子のアライメントなどに有効です。

はMCSを説明していない

誤植

page 29 : SMIRKS → SMILES
page 31 : つかて → 使って
page 37 : 覚えてしまうとよいです → 覚えてしまうとよいです（半角スペースが他にも入っているかもしれません）
page 40 : ChEMB → ChEMBL
page 44 : SupportVectorMachine、LogisticRegiression、ArtificialNeuralNetwork → Support Vector Machine、Logistic Regiression、Artificial Neural Network
page 53 : UnderEstimate → Under Estimate（または、「過小評価」？）
page 44,49 : ディープラーニグ、ディープラニング、ディプラーニング → ディープラーニング
page 45 : Thensorflow → Tensorflow（コードのほうにもthensorflowという記述があるのですが、コレはどっちが正しいですか？）
page 46 : Coalb → Colab
page 51 : 用意おり → 用意されており
page 51 : Backprobagation → Backpropagation/Back Propagation/Back-propagationなど

注釈が欲しい箇所

page 30 : スキャフォールドとは
page 42 : confusion matrixとは
page 42 : f1スコアとは（あとF1と書いた方がいいかも？）
page 43 : R2スコアとは
page 43 : インピーダンスミスマッチとは
page 49 : One-hotベクトルとは
page 55 : 生成モデルとは（よくある識別モデルとの対比みたいな説明を入れるのはどうでしょうか）

表記ゆれ

page 31 : smilesが小文字
page 45,46,54 : Github → GitHub

その他気になった点

page 23 : 自分は専門外なのですが、フィンガープリントは部分構造をベクトル化させたもの、SMILESはそれを記述したファイルの種類（拡張子）、という理解であってますか？SMILESとの対応がわかりませんでした。
page 42,43 : F1スコア、R2スコアの計算結果・値は見れないですか？AsciidocはMarkdownだから、コマンドの評価した結果は見れないですかね？
page 44 : KerasとTensorflowでどちらがどちらを内包している関係なのかがわかりません。Kerasの中でTensorflowが動いているのか、TensorflowがKerasを動かしているのか？
page 44 : 隠れ層が"分岐"というところがあまりイメージできませんでした。1つのシナプスが次のレイヤーの複数のシナプスにつながるところですか？深層学習では一般的に言われているフレーズでしょうか？
page 51 : Epochsは増やしすぎると過学習するというのは知らなかったのですが、何か参考文献はありますか？
page 53 : DNNが自動で特徴量を作るという説明（例えば画像でSIFTを使わずPrimitiveなデータ（ピクセル？）のまま古典的な機械学習手法を使うとうまくいかなかったのでしょうか？変数選択はあらゆる機械学習手法が自動でやってそうですが）

７章　注釈が必要なもの

SMIRKS
スキャフォールド

7章のMMP-Cytoscapeの画像大きすぎ

小さくするか作り直す

mishima-syk / py4chemoinformatics Goto Github PK

py4chemoinformatics's Introduction

目次

License

py4chemoinformatics's People

Contributors

Stargazers

Watchers

Forkers

py4chemoinformatics's Issues

誤植

注釈が欲しい箇所

表記ゆれ

その他気になった点

Recommend Projects

Recommend Topics

Recommend Org

Jobs