仕組みを見る

← トップへ戻る

NEWS DELTA は “差分(Δ)” をどう作る?

海外と日本のニュース露出・温度差・初出時刻を共通スキーマに正規化し、クラスタリングとスコアリングで Δ を算出します。下記の 7 ステップで処理され、ポータルとレポートの両方に反映されます。

日次/週次 可視化先出ラグカバレッジOverlapTone

処理パイプライン

データは API → RSS → スクレイピング の優先順で取り込み、共通スキーマに正規化した後、クラスタリング・言語解析・KPI計算を経て、UI とレポートに反映されます。

取得 (Ingest)

  • 海外:Reuters, Bloomberg, AP, AFP, BBC, FT, WSJ, NYT(見出し), Guardian, SCMP, CNA…
  • 国内:全国紙・通信・TV・Yahoo!主要カテゴリ
  • 重複/失敗検知・再試行

正規化 (Normalize)

  • 共通フィールド:title, lead, source, ts, url, lang, region
  • 見出し/本文抽出・不要要素除去
  • 日本語/英語の言語タグ付与

クラスタリング (Cluster)

  • 類似度:埋め込み+BM25 ハイブリッド
  • 近傍合意で重複統合(canonical 代表)
  • キーワード抽出・エンティティ抽出

言語解析 (Tone/Frames)

  • Tone スコア (−1..+1)
  • フレーミング/焦点語 (who/what/why)
  • 見出し vs 本文の乖離検出

KPI 計算 (Metrics)

  • カバレッジ・Overlap
  • 先出ラグ (lead gap)
  • 未カバー (uncovered) 推定

配信 (Deliver)

  • ポータル (SSR/ISR)
  • 日次ダイジェスト(メール/Slack)
  • 週次/月次レポート(PDF/Web)

スコアリング(Δ の内訳)

Δ-Lead (先出ラグ)

同一クラスターの海外初出と国内初出の時刻差 (min/h)。

Δ-Coverage (露出差)

国内/海外の媒体数・件数の差分。規模重み付き。

Δ-Tone (論調差)

Tone(−1..+1) の分布差、ヘッドライン偏差を含む。

// 擬似コード(クラスター単位)
const delta = {
  lead:  max(0, tsJP_first - tsEN_first),
  coverage: covEN.weighted - covJP.weighted,
  tone:  dist( histEN.tone, histJP.tone ),
};
// 見せ方用の正規化
const z = normalize(delta, { perMetric: true, winsor: [0.01, 0.99] });
// UI 表示:バッジ色・強調度
const badge = styleBy(z, {
  lead:   ["info","warn","alert"],
  coverage:["muted","accent","accent-strong"],
  tone:   ["neutral","shift","shift-strong"],
});

ダッシュボードの主な KPI

レポート / 納品物

日次ダイジェスト

重要クラスターのΔと見出しをメール/Slackで配信。

ターゲット:広報・経営企画・調査部門
週次レポート

カテゴリ別KPIと主な変化を PDF / Web で提供。

ターゲット:定例会議・エグゼクサマリー
月次サマリー

キーワード棚卸し・改善提案・運用の振り返り。

ターゲット:管理職・意思決定層

よくある質問

NYT は本文を使いますか?

ライセンスの都合上、見出しメタデータのみを使用します。クラスタリングには見出し埋め込みを活用します。

スクレイピングは最優先ですか?

いいえ。API → RSS → スクレイピングの順で、合法性と安定性を優先します。

Tone は主観的では?

多言語埋め込み+ルールベース(辞書)のハイブリッドでばらつきを抑制し、分位/分布で可視化します。

トップへ最新の差分を見る