仕組みを見る
← トップへ戻るNEWS DELTA は “差分(Δ)” をどう作る?
海外と日本のニュース露出・温度差・初出時刻を共通スキーマに正規化し、クラスタリングとスコアリングで Δ を算出します。下記の 7 ステップで処理され、ポータルとレポートの両方に反映されます。
日次/週次 可視化先出ラグカバレッジOverlapTone
処理パイプライン
データは API → RSS → スクレイピング の優先順で取り込み、共通スキーマに正規化した後、クラスタリング・言語解析・KPI計算を経て、UI とレポートに反映されます。
取得 (Ingest)
- 海外:Reuters, Bloomberg, AP, AFP, BBC, FT, WSJ, NYT(見出し), Guardian, SCMP, CNA…
- 国内:全国紙・通信・TV・Yahoo!主要カテゴリ
- 重複/失敗検知・再試行
正規化 (Normalize)
- 共通フィールド:title, lead, source, ts, url, lang, region
- 見出し/本文抽出・不要要素除去
- 日本語/英語の言語タグ付与
クラスタリング (Cluster)
- 類似度:埋め込み+BM25 ハイブリッド
- 近傍合意で重複統合(canonical 代表)
- キーワード抽出・エンティティ抽出
言語解析 (Tone/Frames)
- Tone スコア (−1..+1)
- フレーミング/焦点語 (who/what/why)
- 見出し vs 本文の乖離検出
KPI 計算 (Metrics)
- カバレッジ・Overlap
- 先出ラグ (lead gap)
- 未カバー (uncovered) 推定
配信 (Deliver)
- ポータル (SSR/ISR)
- 日次ダイジェスト(メール/Slack)
- 週次/月次レポート(PDF/Web)
スコアリング(Δ の内訳)
Δ-Lead (先出ラグ)
同一クラスターの海外初出と国内初出の時刻差 (min/h)。
Δ-Coverage (露出差)
国内/海外の媒体数・件数の差分。規模重み付き。
Δ-Tone (論調差)
Tone(−1..+1) の分布差、ヘッドライン偏差を含む。
// 擬似コード(クラスター単位)
const delta = {
lead: max(0, tsJP_first - tsEN_first),
coverage: covEN.weighted - covJP.weighted,
tone: dist( histEN.tone, histJP.tone ),
};
// 見せ方用の正規化
const z = normalize(delta, { perMetric: true, winsor: [0.01, 0.99] });
// UI 表示:バッジ色・強調度
const badge = styleBy(z, {
lead: ["info","warn","alert"],
coverage:["muted","accent","accent-strong"],
tone: ["neutral","shift","shift-strong"],
});
ダッシュボードの主な KPI
- Lead Gap:海外初出 → 国内初出までの遅延(中央値/上位分位)。
- Uncovered:海外で扱われるが日本未カバーのクラスター率。
- Overlap:共通で扱うクラスターの比率(重複度)。
- Tone Shift:論調分布の差(JS/EN)。
レポート / 納品物
日次ダイジェスト
重要クラスターのΔと見出しをメール/Slackで配信。
ターゲット:広報・経営企画・調査部門
週次レポート
カテゴリ別KPIと主な変化を PDF / Web で提供。
ターゲット:定例会議・エグゼクサマリー
月次サマリー
キーワード棚卸し・改善提案・運用の振り返り。
ターゲット:管理職・意思決定層
よくある質問
NYT は本文を使いますか?
ライセンスの都合上、見出しメタデータのみを使用します。クラスタリングには見出し埋め込みを活用します。
スクレイピングは最優先ですか?
いいえ。API → RSS → スクレイピングの順で、合法性と安定性を優先します。
Tone は主観的では?
多言語埋め込み+ルールベース(辞書)のハイブリッドでばらつきを抑制し、分位/分布で可視化します。