化学のためのマルチモーダル大規模言語モデル(LLM)


こんにちは、データアナリティクス部のロバート・フバッチです。以前のブログ「有機合成分野へのLLM適用」で、大規模言語モデルを有機合成に利用することについて書きました。このようなモデルの利用は、新しい有機化合物の生産を容易にし、コストを削減すると予測されています。さらに、これらのモデルの応用範囲は、化学全体の分野に拡大することができます。
大規模言語モデルの発展は、テキストの理解を向上させるだけでなく、画像や音声など他の情報伝達手段の理解にも向かっています。このような言語モデルはマルチモーダルモデルと呼ばれます。マルチモーダル言語モデルを化学に応用することで、追加のメリットが得られることがわかっています。この場合、モデルは通常のテキストだけでなく、化合物の分子や化学反応を表す図も分析します。これらの図は、写真や手書きのスケッチの形式で提供されることもあります。このブログでは、化学の分野におけるマルチモーダル言語モデルの応用例を2つ紹介したいと思います。

ChemVLM

図1.Chem VLMモデルの図式。プロジェクターは視覚的な特徴を言語埋め込み空間に変換する。図は[1]に掲載された図に基づいて作成されました

ChemVLM (図1)は、化学問題を解決するために設計されたマルチモーダルな大規模言語モデルです。このモデルへの入力データは、画像とテキスト形式のクエリで構成されています。このモデルの最も単純な応用は、化合物の分子画像や手描きのスケッチに基づいた化学物質の認識です。モデルは各分子画像に対応するSMILES文字列を生成します。前回のブログでも述べたように、SMILES(簡易分子入力線形表現システム)は、化学構造を短いASCII文字列で表現するために広く使われています。
ChemVLMの著者によって示されたこのモデルの別の応用例は、テスト形式で化学問題を解決することです。この場合、問題を説明する画像も質問に添付されています。モデルの著者はまた、このモデルを化合物の図に基づいて化学物質の性質を予測するために使用できる可能性についても言及しています。
図1に示されているように、ChemVLMの入力データは言語モデルで理解できるトークンに変換されます。テキストの場合、トークンは個々の文字、単語の断片、または単語全体です。したがって、テキストプロンプトをトークンに変換するのは比較的簡単です。一方、画像をトークンに変換するには、画像にエンコードされた情報の性質を変更して、言語モデルの空間と互換性を持つようにする必要があります。ChemVLMは、この目的のためにプロジェクターというモジュールを使用しています。

 

MM-RCR


図2.MM-RCRのアーキテクチャ。モダリティ投影は、グラフとSMILESの埋め込みをLLM空間と互換性のある言語トークンに変換します。図は[2]に掲載された図に基づいて作成されました

MM-RCR は、特定の化学反応を行うための条件を予測するために設計されたマルチモーダル言語モデルです。反応条件の適切な選択は、生成コストや反応の結果として得られる生成物、つまり化合物の品質に影響を与えるため、とても重要です。
MM-RCRモデルの入力データは、反応に関与する化合物の分子、反応スキーム、および類似の反応を説明するテキストプロンプト(コーパス)で構成されています。分子と反応スキームはどちらも、化学式をコンピュータが理解できるようにするためにSMILESで記述されています。さらに、反応を表すSMILESは、グラフニューラルネットワークを使用してグラフに変換されます。この場合、グラフは反応の追加の図としてグラフィカルに表現されたものと見なすことができます。反応グラフとSMILESは通常のテキストではないため、言語トークンへの変換にはマルチモーダル投影が必要です。
入力データに基づいて、モデルは適切な溶媒(基質が溶解し、化学反応が進行する液体)を選択し、触媒や他の必要な試薬を提案します。

文献:

[1] J. Li, D. Zhang, X. Wang, Z. Hao, J. Lei, Q. Tan, C. Zhou, W. Liu, Y. Yang, X. Xiong, W. Wang, Z. Chen, W. Wang, W. Li, S. Zhang, M. Su, W. Ouyang, Y. Li, D. Zhou:ChemVLM: Exploring the Power of Multimodal Large Language Models in Chemistry Area, arXiv:2408.07246
[2] Y. Zhang, R. Yu, K. Zeng, D. Li, F.Zhu, X. Yang, Y. Jin, Y. Xu: Text-Augmented Multimodal LLMs for Chemical Reaction Condition Recommendation, arXiv:2407.15141