私たちの方法論
KotobaPeekで目にする数値や定義がどこから来ているのか、知る権利が あなたにはあります。このページでは、明快な日本語で、私たちの ソース、処理方法、データの限界を公開しています。「独自データ」 という言葉の裏に何も隠していません。
主要な頻度ソース
KotobaPeekの日本語語彙データベースは、公開されている日本語コーパス と確立された辞書学的参照から派生した頻度リストの上に構築されて います。各単語について、見出し語、品詞(名詞、動詞、形容詞、副詞 など)、読み方(ふりがな・ローマ字)、参照コーパスでの使用頻度を 抽出しています。
使用している辞書参照
定義、語源、例文については、日本語の主要な辞書参照に依存しています。 これらは、各エントリの検証のためにあなたに参照することをお勧めする ソースでもあります:
- ウィクショナリー日本語版 (Wiktionary JA) — CC BY-SAライセンスで運営されている多言語の協力型辞書。 詳細な語源情報と方言の注釈があります。
- JMdict / EDICT (Jim Breen, Monash University) — ジム・ブリーン教授によって維持されている日英電子辞書 プロジェクト。Creative Commons BY-SAで公開されており、Jisho.org をはじめ多くの日本語学習ツールの基盤となっています。
- コトバンク(朝日新聞社・VOYAGE GROUP) — 大辞泉、日本国語大辞典、デジタル大辞泉などの権威ある 日本語辞書を統合した辞書プラットフォーム。
- Weblio 国語辞典 — 三省堂大辞林をはじめとする辞書の検索プラットフォーム。 現代用法の確認に便利です。
- 現代日本語書き言葉均衡コーパス (BCCWJ, 国立国語研究所) — 国立国語研究所(NINJAL)が公開している日本語の代表的な 均衡コーパス。約1億語規模で、現代日本語の頻度研究の標準と されています。
JLPTレベル分類 (N5〜N1)
各単語は、コーパス頻度と広く使われている語彙リスト、特に 日本語能力試験(JLPT)の公式・非公式語彙リストに基づいて学習レベル を割り当てられています:
- JLPT N5— 約800語、日本語学習の入口。 挨拶や基本的な日常会話に必要なレベル。
- JLPT N4— 約1,500語、基本的な日常会話と 簡単な読み書きに対応するレベル。
- JLPT N3— 約3,750語、新聞やニュースの 見出しを理解できる中級レベル。
- JLPT N2— 約6,000語、日本での仕事や 大学入学に必要とされる上級レベル。
- JLPT N1— 約10,000語以上、日本語ネイティブ と同等の理解力を必要とする最上級レベル。
日本語学習者向けの語彙としては、JLPTレベルが業界標準の指標と されています。日本国際教育支援協会(JEES)と国際交流基金が共催する この試験は、世界80カ国以上で実施されており、日本の大学入学、 就職活動、在留資格申請などで広く受け入れられています。
漢字・ひらがな・カタカナの取り扱い
日本語の単語は、漢字、ひらがな、カタカナの3つの文字体系を組み合わ せて表記されます。私たちのデータベースでは:
- 見出し語は最も一般的な表記(通常は漢字を含む形)で記録します。
- すべての単語には、ひらがなまたはローマ字での読み方を併記して います。
- カタカナ表記の単語(外来語など)は、原語の言語と元の意味を 可能な限り注釈しています。
- 常用漢字表 (2,136字、2010年改訂) を基準として、特殊な漢字に ついては読み方を必ず付与しています。
構築・更新プロセス
- 取り込み— 元となる頻度リストをローカルの SQLiteデータベースにインポートします。
- クリーニング— 日本語以外のコンテンツ、 エンコーディングの不整合、空のフィールドを除去します。
- 導出— レベル、頻度パーセンタイル、 類義語/対義語の関係、文字数別と五十音順のインデックスを、 クリーンなレコードから決定論的に計算します。
- 翻訳のクロスリンク— 一部の単語の翻訳を 姉妹辞書(VocabWize 英語、VocabLibre フランス語、 DicionarioWize ポルトガル語、WortWize ドイツ語、 KalimaWize アラビア語)と結合し、言語間の直接リンクを構築します。
- 公開— データベースはビルド時にサイトに パッケージ化され、各ページは検証済みの同じスナップショットから 生成されます。
更新頻度
日本語の辞書データは比較的ゆっくりと変化します — 語彙は時間単位で 変わるものではありません。私たちはデータセットを月次の頻度で 更新し、ソースが重要な訂正を公開した場合は即座に更新します。 各単語ページには、人間が読める「最終更新」タグを付けており、 常にデータの出所を確認できます。
クロスリファレンス
私たちの言葉を盲目的に信じる必要はありません。疑問があるエントリ については、これらの権威ある公開リファレンスとの比較をお勧めします:
- Jisho.org — JMdict/EDICTを基盤とした、日本語学習者向けの最も人気の ある日英オンライン辞書。
- コトバンク — 複数の権威ある日本語辞書を統合したプラットフォーム。
- Weblio — 三省堂大辞林をはじめとする辞書の検索。
- ウィクショナリー — 詳細な語源情報を持つ協力型辞書。
知っておくべき限界
- 方言の扱い。 私たちの定義は標準語(共通語)に 重点を置いており、関西弁、東北弁、九州弁などの地方方言の ニュアンスを必ずしも区別していません。方言固有の用法については 専門の参考資料を参照してください。
- 新語・流行語。 直近12ヶ月以内に作られた新語は 含まれていない、またはデータが限定的な場合があります。これらは 次回の更新サイクルで最も更新される可能性が高いエントリです。
- 固有名詞と専門用語。 専門的な技術、医学、法律 用語は含まれていますが、私たちの主要な焦点ではありません。 専門分野の作業には、その分野の参考資料を使用してください。
- 頻度は全体的な指標です。 ある単語は特定の レジスター(例:法律日本語)では稀でも、別のレジスター (例:日常会話)では一般的である場合があります。私たちの パーセンタイルは全体的な使用を表しています。
- 敬語の文脈。 日本語には複雑な敬語システム (尊敬語・謙譲語・丁寧語)があります。私たちのデータでは 基本的な品詞を示しますが、敬語の使い分けは別の参考資料で 学ぶ必要があります。
修正とフィードバック
誤った定義、不足している意味、またはあなたの経験と一致しない レベル分類を見つけた場合、私たちに知らせてください。お問い合わせページから、単語と変更したい点を お送りください。すべての修正リクエストを追跡しています。
この方法論ページは、2026年3月に最後にレビューされました。 データセットの構築方法に対する実質的な変更は、本番ページに 反映される前にここに反映されます。