ITちゃんねる

仕事に役立つIT関連の最新ニュース

HTMLからデザイン要素を排除し、文字情報をまとめたファイルを作る言語モデル「Reader-LM」が公開

HTMLからデザイン要素を排除し、文字情報をまとめたファイルを作る言語モデル「Reader-LM」が公開

独Jina AIは、HTMLデータから文字情報をまとめたMarkdownファイルを生成する言語モデル「Reader-LM」を9月11日(現地時間)に公開した。パラメーター数が約4億9400万の「Reader-LM-0.5b」と、パラメーター数が約15億4000万の「Reader-LM-1.5b」の2種類を公開した。どちらもHugging Faceのリポジトリでダウンロードできる。