研究内容
Research
「文字・文字列・言語研究会(駒場)」を東京大学の学生たちと立ち上げました。系列データに関わる理論・応用研究について検討しています。
- 理論面:形式言語、データベース、離散アルゴリズム、データ構造、機械学習の観点から系列データ処理を検討しています
- 応用面:大規模コーパス、大規模ゲノム配列データ、低資源言語データ(古典籍・暗号文書・消滅危機言語など)に関連した諸課題を検討しています
また、「自然言語処理」や「知識処理」全般の課題について取り組んでいます。現在、下記のテーマを進めており、トップ国際会議採択などの実績があります。
- 自然言語生成
- 大規模言語モデルの推論における数理的理解(ACL25)
- 大規模言語モデルの劣モジュラ性とスケーリング則
- 知識源の活用(BioNLP25)
- マルチモーダル大規模言語モデル
- 美術作品の説明文生成 (ACL24)
- 美術作品の説明文生成 の多言語化 (NAACL25)
- 写真の批評生成 (COLING25)
- 知識処理・データベース
教養学部における学際言語科学コース、または、総合情報学コース(学際B)から学生の配属が可能であり、大学院では総合文化研究科における言語情報科学専攻から配属が可能となっています。社会人の方の配属希望も歓迎しますので、気軽にご相談ください。学生には教員と同じテーマではなく、以下のようにご自身で形にしたいテーマを自由に決めてもらっています。
- マンガのマルチモーダル処理(特に、言語とレイアウト構造の相関解明)
- レイアウト分析 (CogSci25)
- 読み順と視線情報 (IEEE SMC25採択)
- 古典籍データ処理(国文学研究資料館との共同研究プロジェクト)
学生の研究教育を主な目的としたハッカソンを他大学・民間企業と共同で企画しており、学生の希望に応じて参加いただくこともできます。
成果は有名国際会議にも論文が採択されています。
開発したツールやデータは研究室GitHubから随時公開します。