どのようにNetflixはあなたのお気に入りを明らかにするためにオープンソースAIを展開します

このAIベースのサイエンス記事では、Netflixがエンターテイメント推奨システムを改善するためにオープンソースモデルをどのように採用したかを探ります。

最初に、機械学習が基本的に何を意味するのか、簡単に説明しましょう。 簡単に言えば、機械学習は、複雑な一連の異なる規則を使用せずに、コンピューターがデータから「学習」できる手法です。 このアプローチは、主にデータセットからモデルをトレーニングすることに基づいています。 データセットの品質が高ければ高いほど、機械学習モデルの精度も向上します。

最初に、機械学習とディープラーニングについて簡単に説明します。

機械学習には主に3つの形式があります。

  • 教師あり学習
  • 教師なし学習
  • 強化学習

教師つき学習はラベル付きデータセットの訓練に基づいています。

教師なし学習では、ラベルなしデータセットを使用します。

強化学習は、正しい結果に基づいてアルゴリズムに報酬を与え、試行に失敗した場合はそれを罰することに基づいています。

上記の間隔は、この記事で使用されている日付に関連している可能性があります。 Netflixは2017年にVectorflowをオープンソース化しました。これはディープラーニングライブラリです。 画像ソースはこちら

人工ニューラルネットワークとして広く知られている主題に関連して、「ディープラーニング」もあります。これは、私たちの脳の独自のニューロンネットワークに触発された機械学習を実行するための技術です。

Netflixがコンテンツの推奨にAIを使用する方法

あなたがNetflixの加入者であるか、加入したことがあるならば、あなたはNetflixが広告ベースのモデルを使用しないことを最も確実に知っています。 代わりに、彼らは純粋にサブスクリプションベースのモデルを使用しています。 これが、Netflixがあなたの経験をできるだけあなたに合ったものにしたいと思う理由です。

そのために、Netflixは、そのような個人的に知覚的なモデルをどのようにして作り出すことができるかについて、いくつかの方法を模索し始めました。 あなたがNetflixの加入者ではなかったとしても、NetflixがどのようにしてユーザーのNetflixアカウントに対してこれらの驚くべき推奨をするか、そして人々がどのようにしてNetflixを愛するようになったかについて疑問に思うかもしれません。 これらの推奨事項の一部がミバエの脳に基づいていた可能性があることを知って驚いたことでしょう。

当初、彼らの方法はビッグデータに基づいており、純粋に評価ベースのシステムに頼っていました。 映画/テレビ番組の推薦は完全に特定の番組や映画が評価されていたかどうかに基づいています。 これらの評価は、ユーザーからのフィードバック、再生回数、動画が全体または一部で視聴されているかどうか、および/またはIMDBの評価に基づいています。

2008年3月12日付けのスタンフォード大学の論文で、Netflixの推奨がIMDBの評価に基づいていることを示しています。

戦略的意思決定の強力な基盤の上に構築されて、Netflixはユーザーの次に好きな未視聴の映画が何であるかをかなり高いレベルの正確さで予測するために素晴らしい学習モデルを構築するのに長い道のりを歩きました。

2009年9月21日に、Netflixのリコメンデーションモデルを改善したことにより、チーム“ BellKor's Pragmatic Chaos”に1Mドルの賞金が授与されました。 The Netflix Prizeとして知られるこれは、ユーザーエクスペリエンスを10%以上向上させるためのNetflixによるイニシアチブです。

即興で更新されることになっていた予測アルゴリズムは、協調フィルタリングに基づいていました。 協調フィルタリングは、集団的なユーザーからのフィードバックに完全に基づいている推奨手法です。

映画の嗜好を予測するための機械学習アプローチ 推薦システムに含まれるフルビデオ

たとえば、人々のグループがあなたが本当に好きな可能性が高い映画を見ました。 しかし、これまでにその映画について聞いたことがない可能性があります。 過去の視聴の嗜好を収集し、それを視聴し終えた人のそれと解釈することによって、推薦システムはあなたにその特定の映画を提案することができます。

一方、コンテンツベースのフィルタリングは、ユーザーの好みに基づいていません。 その代わりに、例えばジャンルのような分類のタイプに基づいてビデオ自体の間で比較が行われる。 それはコメディー、ロマンス、ホラー、サスペンスなどです。

さらに、上記の両方のフィルタリング手法を結合したハイブリッドモデルもあります。 これらについて詳しく知りたい場合は、このクリップをご覧ください。

NetflixはACMジャーナルに「The Netflix Recommender System:アルゴリズム、ビジネスバリュー、そしてイノベーション」と題する論文を発表しました。 紙はオープンアクセスとして利用可能です。 本稿で強調されている注目すべき方法論のいくつかは以下の通りです。

機能とテクニックNetflixは、ユーザーに最高の体験を提供するために使用します。

  • パーソナライズドビデオランカー:PVR
  • トップN動画ランク
  • 今流行っている
  • 見続ける
  • ビデオ間の類似性
  • ページ生成:行選択とランキング
  • 証拠の選択
  • 検索エクスペリエンス
  • 上記すべてに対する統計的および機械学習のテクニック

上記の機能に関連づけることができるように、私たちは先に進み、Netflixの最初の月の無料購読に申し込みました。

登録した後、私たちは3つ以上の好きな映画やテレビ番組を選ばなければなりませんでした。 そこで、Baahubali 2、Bright、Sherlock、Altered Carbonを選びました。 以下に示すよりも多くの選択肢があります。

これに続いて、NetflixのArtificial Brainが動き出しました。

したがって、基本的に、選択した数が多ければ多いほど、パーソナライズは向上したはずです。 その後、私たちは次のようなNetflixのブラウジングページに迎えられました:

「My List」は、「Personalized Video Ranker:PVR」に関連付けることができます。これは、上記の9つの手法のうちの最初の手法に対応します。

私達はかなり以前から“ Altered Carbon”を見たいと思っていました。 それで我々は始めにそれの数秒を見ました:

ホームページに戻って、私たちは新しい推薦に気づきました:

これは、「Altered Carbon」を少し見ただけなので、「Video-Video Similarity」に相当します。

私達が私達が興味を起こさせることができるトップピックを私達に示したもう一つの興味深い推薦行もありました、そして私達がこのリストを通して拾い読みした時私達は驚きました。

これは上記のリストの「上位N動画ランク」に直接関係します。 「Ittefaq」は、申し込んだ直後に選択した「Sherlock」と同じジャンルのサスペンススリラーです。 サムネイルが示すように「反乱」は、「Baahubali 2」または「Bright」と同じアクションジャンルに属している必要があります。 そのため、これはコンテンツベースのフィルタリングから派生しています。

「Rabindranath Tagoreによるストーリー」という勧告は、私たちをさらに驚かせました。 Netflixは場所に基づいてこれを推奨することができます。 彼らは本当に驚くべきアルゴリズムをいくつか持っています。

そのため、Netflixが実際にどのように機能するのかを実際に体験しました。 Netflixが人工知能と機械学習に向けたオープンソースのアプローチを採用していなければ、これらのインテリジェントな推奨事項すべてが可能ではなかったでしょう。 Netflixのオープンソースイニシアチブについて見てみましょう。

Netflix Open Connectイニシアチブ

Netflixの非常に独自のコンテンツ配信ネットワーク(CDN)は、オープンソースによって強化されています。 彼らは最初、アカマイ、Level 3、Limelightにストリーミングサービスをアウトソーシングしました。 しかし、結局、彼らは計画に変更を加えました。

Netflixは、次のことを望んでいたため、独自のCDNを構築することにしました。

  • 早く成長する
  • コストを削減
  • HTTP接続のサーバー側を制御する
  • Netflixコンテンツ配信に特化したCDNを構築する
  • コンテンツをクライアントに近づける

そのため、 Netflix Open Connectが登場しました。 つまり、NetflixのCDN基盤は、NGINX WebサーバーとFreeBSDオペレーティングシステムの上に構築され、2つの強力な柱を象徴しています。 Netflixは、CDNを構築する際にGPLの代わりにBSDライセンスを使用することを選択しました。 これは、ISPが主に第三者として関与していたためです。 両方のライセンスを詳細に比較するには、ここにジャンプしてください。

NGINXが選択されたのは、高速で安定していることが知られていて、Nginx、Inc.から商用サポートが受けられ、カスタムモジュール用の柔軟なフレームワークがあったためです。 FreeBSDは高速で安定したオペレーティングシステムであることも知られており、強力な開発者コミュニティがありました。 それで、それは適切な選択となりました。

上記の両方が無料でオープンソースである、NetflixはBIRDインターネットルーティングデーモンと呼ばれるもう一つのオープンソースプロジェクトを使いました、しかし、それはGPLライセンスを使います。 このツールは、ISPからクライアントをそれぞれのコンテンツに誘導する独自の制御システムにネットワークトポロジを転送するために使用されていました。

3つすべてが、処理するための優れたツールとして機能しました。

  • アプライアンスごとに400, 000ストリームファイル
  • アプライアンスあたり5000〜30, 000のクライアントストリーム
  • ディスクあたり300〜1000クライアント

上記のOpen Connectイニシアチブは、この包括的なNGINX会議記録で詳細に説明されています。

プレゼンテーションスライドはこちら:

Gleb Smirnoffの Netflix CDNとオープンソース

Netflixオープンソースソフトウェア構想

今日、NetflixのOpen Source Softwareイニシアチブは、オープンソースへの取り組みについて語っています。 彼らは彼ら自身のオープンソースソフトウェアセンターを持っています! NetflixのGitHubページには、52人の開発者によって管理されている139のリポジトリが明確に示されています。 ここで実際に見た予測結果はすべて、GitHubにリストされているこれらのユニークなオープンソースプロジェクトによって支えられています。

Netflixには、上記のVectorflowという独自のディープラーニングライブラリがあります。 Surusと呼ばれるさらに別の予測分析ツールがあります。 それは、クラウド内のモデルの効率的なスコアリング予測を可能にするScorePMMLとして知られる機能を持っています。 Surusは、外れ値の検出やパターンマッチングにも使用できます。 Netflixにもそれらについてのブログ記事があります。

概要

要約すると、私たちはあなたに機械学習、Netflixがどのようにエンターテイメントの推薦者として進化したか、Netflixの推薦モデルとの直接比較、そしてNetflix Open Connectについて紹介し、続いて彼らのOpen Source Software Initiativeを紹介しました。

お時間をいただき、辛抱強く記事を読んでくれてありがとう。 私達はそのような刺激的な探検がもっと楽しみにしています!

最後の注意として、Netflixの芸術と科学への注目すべきアプローチは2つの別々の実体ではないとして強調したいと思います。 しかし、不思議を創造するための美しい統一体として!

推奨されます

デフォルトでHDMIが有効になっているのでUbuntu 14.04で音がしない
2019
ターミナルにASCIIアートでLinuxディストリビューションのロゴを表示する
2019
最新のSolus ISOスナップショットにGNOMEが含まれる
2019