2枚の画像を1枚に結合した後、LLMの視覚入力(fileなどの入力可能な形式)に渡す方法はありますか?

2枚の画像を1枚の画像に合成した後、LLMの視覚入力(ファイルなどとして入力可能な形式)で認識・分析する方法はありますか?