Amazonレビューにおける詐欺の可能性を探る

Amazonは、その多様な品揃えや製品レビューなどにより、米国のみならず世界で最も人気のあるマーケットプレイスの1つとなっています。しかし、これらのレビューはどの程度正確なのでしょうか。

Amazonのセラーやその競合相手は、何らかの方法でレビューを投稿し、評価に影響を与えているのでしょうか。Verified Purchase(認証購入者)タグが付いているレビューはレーティングに影響しているのでしょうか。こうした疑問を検証するために、Amazon S3(Amazon Simple Storage Service)で公開されているAmazon Customer Review Datasetを分析することにしました。

このデータセットにアクセスし、デジタル製品を例にレビューを分析してみます。まず、PivotBillionsを使用してデジタル製品カテゴリー用のカテゴリーを1つ作成しました。その後、PivotBillionsの列作成機能を使って、レビューの日付の列から月を抽出し、データをロードしました

その結果、デジタル製品カテゴリーについての2300万件を超えるレビューにアクセスできるようになり、各カテゴリーの評価とVerified Purchaseタグの効果を調べることが可能になりました。データの構成を把握するために、商品カテゴリー、レビュー月、Verified Purchase(認証購入者)の列でピボットテーブルを作成しました。

デジタル電子ブックがデジタル分野の中で最も多くの割合を占めていることは明らかです。Amazonのルーツがオンライン書籍販売者であったことを考えると、これは大いに理にかなっています。データの内訳について詳しく理解し、各製品カテゴリーのレビュー数が十分に多いことも確認しましたので、星評価の平均に関する製品カテゴリー間の比較を行うことにしました。そこで、星評価の列の表示をCount(合計)からAverage(平均)に、グラフの表示を横棒グラフに変更して、製品カテゴリー別時系列評価のグラフを表示しました。

デジタル製品カテゴリー間の階層構造もクリアに確認することができました。時間の経過とともに変わりますが、ビデオゲームとソフトウエアは他のカテゴリーよりもかなり評価が低く、最も高く評価されている音楽との差は歴然としています。しかし、興味深いことに、ソフトウエアは夏季に急激に評価が高まっています。さらに深掘りするために、そのカテゴリーに絞り込んで、Verified Purchase(認証購入者)タグをピボットテーブルに追加しました。

驚くべきことに、夏季の変動は主にNon-Verified purchase(未認証購入者)のレビューに起因するものでした。一方で、Verified Purchase(認証購入者)のレビューは比較的安定していました。これは、セラーまたはその競合他社によってソフトウエアレビューが意図的に影響を受けているか、あるいはAmazonで検証されない広範な製品群が存在している可能性が考えられます。

製品カテゴリーによって評価に大きな違いがあり、音楽は非常に高く、ソフトウエアやビデオゲームは非常に低いということがわかりました。さらに、Verified Purchase(認証購入者)タグが格付けに大きな影響を与えるケースがあることもわかりました。その際、不正レビューの可能性もあるため、より深く掘り下げて検証しました。

次に、顧客毎のレビュー数を把握するために、顧客IDでピボットテーブルを作り直しました。

そしてこのデータをエクスポートし、PivotBillionsを用いてメインデータに結合しました。

それぞれの顧客が投稿したレビュー数のデータを用いて、最低1000件以上のレビューのある顧客のみにデータを絞り込みました。

顧客ID、レビュー月、Verified Purchase(認証購入者)の列でピポットテーブルを作り直し、Non-Verified purchase(未認証購入者)のみにデータを絞り込むことで、不審な振る舞いを把握することができるようになりました。

未認証のレビューが非常に多いごく限定した顧客にさらに絞り込むことで彼らの振る舞いを分離し、それらをより詳細に表示することができました。

一部の顧客は年間を通して多数の未認証レビューを投稿していることがわかりました(例:ID 37529167)。一方で、ある特定の時期に集中的に投稿している顧客もいました(例:ID 7080939)。レビュー数が多く未認証であるため、これらの顧客は詐欺的なレビュワーである可能性が極めて高いと考えられます。
不審な振る舞いをしている顧客のリストが出来ましたので、次のステップとしてどの製品が最も影響を受けているのかを把握すべく、親製品、顧客ID、レビュー数でピボットテーブルを作成し、レビュー数でソートしました。

このように、疑わしいレビューが多い製品を特定することができるようになりました。実際、この限られた顧客数にも関わらず、22件以上の未認証レビューの投稿がある製品が存在しました。

Amazonは非常に人気が高いマーケットプレイスであり、認証購入者による膨大な数のレビューのデータベースを持っています。しかし、製品に対して個別または累積的な影響を与える可能性のある様々な不正レビューがデータ全体に分散して存在していることは明らかです。Amazonは、これらのレビューをより詳細に調査し、認証購入者タグを可能な限り増やしていく必要があるでしょう。当面はAmazonのレビューシステムを最大限に利用しながらも、高価な商品を検討する際には認証購入者のレビューであることを確認することをお奨めします。