A10-7850K ベンチマークとか

雪やばい、とかもうさすがにいいと思うので、この前のA10-7850Kで遊んでみる続き。

x264とゲームのベンチマークとかでどのくらい戦えるか。まああちこち見てもやはりゲームベンチが中心でエンコードのベンチマークは(あたりまえだけど)あまり見ないので…。

あ、ちなみにケース (JONSBO U2)はこんな感じ。全アルミで柔らかめだけど、このぐらいの大きさならそれでも大丈夫だと思う。

A10_7850K_08

中身はこんなもん。普通のケースより小さいから、ATX電源が相対的に大きく見える。

一応このケースはMini-ITX用だけどATX電源と2スロットなGPUも下に入る(いれてないけど)。HDDも入るけど冷却と騒音考えるとあまり入れたくない感じなので、やっぱりSSDを使いたいところ。そこそこ良いケースだと思う。あ、CPUクーラー鎌アングルだけど、これ普通はソケットに乗らないので真似しないでくださいな。

A10_7850K_07

環境と設定



どんな比較をやるかというと、いつもどおりx264と、珍しくゲームも少し。比較対象は、まあ最上位対決ということで、i7 4770K。i5と比べるべきかもだけど、持ってないし。

OSWin7 x64Win7 x64
CPUA10-7850KCore i7 4770K
メモリG.skill F3-2400C11D-8GABGSkill F3-2600C10Q-16GTXD
マザーボードAsrock FM2A88ITX-X+Asrock Z87 Extreme4
電源ENERMAX EPM600AWTENERMAX EPM600AWT
GPU内蔵内蔵 (HDG4600)
SSDIntel 330 240GBPlextor M5P 256GB
コア数2M/4T4C/8T
動作周波数4397 MHz4400 MHz
動作電圧1.41V~1.47V1.325V
倍率104.7×42100.0×44
GPU周波数998 MHz1250 MHz
メモリ速度DDR3-2496 2chDDR3-2600 2ch
理論帯域39.9 GB/s41.6 GB/s
レイテンシ11-13-13-31-210-12-12-31-2
メモリ容量8GB16GB
ドライバCatalyst 13.3010.18.10.3345


特に書いてなければ、上の設定で比べていく。

どちらも"K"付きCPUなので、オーバークロック可能。両方ともBIOSから全コア4.4GHzに達するようにした。A10-7850Kの定格は前世代のA10-6850Kより低いのだけど、まあよく考えるとK付きなら定格とかどうでもよかったりする。重要なのは実際の発熱と、どこまで安定して動くか。今回は前書いたようにオーバークロック用のマザーボードでないことと、Mini-ITXなケースなために4.4GHzが限界ぽい。

GPUは7850Kは998MHz(BIOS設定は960MHzで、そこからBCLKを100→104にあげてある)に設定。このGPUのオーバークロックの効果はあとでゲームのベンチマークで確かめた。i7 4770Kはそのままで1250MHz。

メモリについては4770Kのほうがちょっといいメモリで、円安本番になる前に3万円ぐらいで買ったDDR3-2600 16GB (CL=10)。7850Kの方のメモリは、最近買ったDDR3-2400 8GB(CL=11)で…1万3000円ぐらい。CL値がちょっと大きいのが難点(CL=10 @ DDR3-2400では動かない)。

7850Kのほうのマザーボード(FM2A88ITX-X+、BIOS 2.10)はDDR3-2400までしか設定できないので、さらにBCLKを100から104まで上げてさらにクロックを上げている。ちなみにBCLK=105ではメモリに関係なく不安定なので、BCLKは104が限界みたい。このマザーだと今のところDDR3-2500は超えられないと思う…。



x264 fullHD エンコード



アニメのOPをインタレ解除してエンコードしたmp4をソースにして、フィルタ無しで再エンコードした速度を測定。

共通環境
Aviutl 1.00
x264 8bit/10bit x64 r2391 (たくあん氏ビルド)
x264guiEx 2.04
lsmashinput.aui r694 (POP氏ビルド)

ソース
未確認で進行形 OP H.264/AVC 8bit 1920x1080p 23.976fps (1分30秒, 2155フレーム)

x264 オプション
プリセットつけるだけ

測定
いつもどおり一発勝負

結果
A10_7850K_benchmark_01

Kaveriはx264苦手なんでしょうがないかも。ただOpenCLが効かないのがやはり寂しいところ。

i7 4770Kと比べると、軽い設定よりは重い設定のほうが、そして8bitよりは10bitのほうが差がついてしまうのは、CPU使用率が上がってくるため。i7 4770Kは論理8コアなので、これを活かしきれるぐらい重くなってくるとより優勢になる。



Aviutl fullHD エンコード



今度は少しフィルタもかけてアニメ24分をエンコード。

共通環境
Aviutl 1.00
x264 8bit x64 r2391 (たくあん氏ビルド)
x264guiEx 2.04
m2v.aui 0.7.5a

ソース
桜Trick #05 MPEG2 1440x1080i 29.97fps (約24分, 43744フレーム)

フィルタ
自動フィールドシフト高速化版 7.5a+12、アニメ、24fps化
透過性ロゴ
リサイズフィルタ (1440x1080 → 1920x1080)
 7850KではXOP版、4770KではAVX2版

x264 オプション (適当)
--preset slow --crf 20 --qcomp 0.7 --vbv-bufsize 31250 --vbv-maxrate 25000 --aq-strength 0.4 --psy-rd 1:0.2 --keyint -1 --min-keyint 4 --bframes 5 --subme 9 --ref 4 --trellis 2 --colormatrix bt709

測定
いつもどおり一発勝負

結果 (所要時間)
A10-7850Ki7 4770K
所要時間 41分11秒 22分50秒 


結果 (fps)
A10_7850K_benchmark_02

う~ん。やはりフィルタを多少かけても大きくは変わらない。



ゆめりあ



お手軽ゲームベンチ。1024x768の最高品質。

A10_7850K_benchmark_03

当然、Kaveri大勝利。てかすごい差だな。




FFXIV: 新生エオルゼア ベンチマーク キャラ編



今度は、重めのゲームベンチ。お手軽さからFF14のベンチマークを使用。設定は1920x180、フルスクリーンの「最高品質」で一発勝負。

このベンチだけは、GPUの動作周波数やメモリの動作周波数がどのくらい影響を与えるか確認するため、それぞれ変えてベンチマークした。

1. CPU 104.7x42 / GPU 998 MHz / メモリ 2496MHz (BCLK上げ)
2. CPU 100x42  / GPU 960 MHz / メモリ 2400MHz
3. CPU 100x42  / GPU 960 MHz / メモリ 1600MHz
4. CPU 100x42  / GPU 720 MHz / メモリ 2400MHz
5. CPU 100x42  / GPU 720 MHz / メモリ 1600MHz

A10_7850K_benchmark_04

まず、1と6で比べると、A10-7850Kがi7 4770Kに圧勝…というわけでさすがAMD。やはりGPU強い。「最高品質」の設定なのでどちらもあまり快適とは言いがたい動きだけど、4770Kと比べると目に見えて良い感じだ。

で、GPU/メモリのクロックを変えて比べると、メモリ速度が全力で足を引っ張ってるなあ、ということがわかる。

例えば、定格(5)からメモリをクロック上げした場合(4)と、GPUをクロック上げした場合(3)。GPUだけクロック上げ(5 → 3)しても全然スコアが伸びないのに対して、メモリのクロック上げただけ(5 → 4)で大幅にスコアが伸びている。また、メモリの速度を上げた状態では、GPUのクロックを上げるとそれなりにスコアを上積みできている(4 → 2)。

結局メモリでスコアが決まってしまっていて、その分高速メモリを使うとAMDの優秀なGPUが真価を発揮できるようになるみたい。こうなってくると、DDR4とかQuad-Channelとか、いっそ増設できなくてもいいからGDDR5とか…。



冷却



A10-7850K
MiniITXなケースと大した風量の出ないファンでもCPUコアもまだ余裕

i7 4770K
24cmラジエータ付き簡易水冷でもCPUコアだけ熱い、そのくせ廃熱は涼しい

…どんだけ熱こもりやすいんですか、Haswellちゃん。というわけで冷却はKaveriのほうが楽。個人的に重要なのは冷却のしやすさであって絶対的な発熱量そのものではないです。



まとめ



KaveriはCPUコアがSteamrollerになり、デコードがちゃんとコアごとに行えるようになるなど、いろんな改良がされている。ただ、残念ながら、SIMD演算器が2コアで共有され、SIMD命令のレイテンシもスループットも微妙、というのは以前から変わっていないみたい。SIMD演算が多めのx264エンコードでは、SIMD命令を捌き切れないせいで、あまり速度が出ないんじゃないかなと想像できる。

まあ値段的にCore i7と比べるな、というのはあるだろうけど、同じクロックでの「Steamroller 2スレッド in 1モジュール」vs「Haswell 2スレッド in 1コア」の様子が見えてくると思う。

一方、KaveriのGPUはさすが。Haswellに比べ相当演算力が高い。メモリが律速になる場合が多いはずなので、高速なメモリを使うことで、より真の実力を発揮できると思う。それに試していないけどMantleを使うとCPUにより律速になってしまっている場合でもGPUの性能を発揮できるようになるということなので、CPUでの不利をカバーできるのかもしれない。またドライバがより信頼できる…というのも重要だったりする。(というかIntelドライバは謎が多すぎる)

実際、SimCityとか、自分のやるゲームが普通に動いたんで満足。しかもMini-ITX用にしては大きめなケースとはいえ、小さなスペースに収められたので嬉しい限り。



Kaveriへの期待とか ~HSA~



Kaveriの最大の特徴は、HSAへの対応で、特にメモリ空間が共通となったことは非常に大きいと思う。

これまで、GPUに計算をさせる場合、たとえAPUのように共通の物理メモリ上にデータがあったとしても、計算用に使うデータをGPU用に確保したメモリに一度コピーしてやる必要があった。

つまり、大雑把には

計算用データをCPU用メモリからGPU用メモリにコピー
 ↓
GPUで計算
 ↓
GPU用メモリにある計算結果をCPU用メモリにコピー

みたいな手順を踏む必要があった。

こうやってメモリコピーするプログラムをいちいち書くのはそれはそれでちょっと面倒なのだけど、まあそれはいいとして、問題はこのメモリコピーによってなかなか全体の速度が上がらないということだと思う。

メモリコピーにはある程度時間がかかるので、素直にさっきの例のようなプログラムを書くと、メモリコピーしている間、CPUとGPUはほとんど遊んでいることになり、なかなか速度が出ない。そこで、メモリコピーしている間に他の計算をさせるような、CPUやGPUがなるべく遊ばないような工夫が必要になり、面倒なことになる。

また、本来GPUは(うまくいけば)大量の演算を一気に進めることができるので、その分大量のデータを演算器に送る必要がある。そのため、GPUの演算力を引き出すにはメモリ帯域が重要になってくる。ところが、いちいちメモリコピーをやってるとメモリ帯域を圧迫し、なかなか性能が出なくなってしまう。

HSAへの対応が進み、このメモリコピーが不要になることで、こうした問題が解決できる可能性が高い(どうプログラム書くのかはよくわからないけど)。GPGPUはいままで限られた計算でしかその性能を十分に発揮できなかったけど、HSAによりGPUを使った計算の可能性が広がると思う。HSAを活かしてAPUだと高速、みたいなソフトがもっと出てくると、面白くなってくるんじゃないかと。

一方で、IntelはAVX-512でSIMDの演算力をさらに引き上げるみたいなので、IntelがCPUのSIMDから、AMDがGPUから演算力を強化しようとしていて、対照的で面白い。いずれにしても増えた演算力を有効に活用するにはメモリ速度の向上が不可欠だと思うけど、DDR4はまだ遠い。

最近PCは演算力が頭打ち気味になってる気がする (もちろん省電力方面にはだいぶ進化しているけど)。そんな中、それを打破するのはAMDのHSA、IntelのSIMD、それともNVIDIAのCUDA、どれなのだろうか…。



スポンサーサイト

コメントの投稿

非公開コメント

No title

Kaveriは、いろいろ楽しめそうですよね。
jpgのハードウェアデコードやらAMD Fluid Motion Video(フレーム補間)などありますし。

まだ、正式版ドライバが来ないのが残念ですが

Re: No title

楽しみな要素は多いので、これからどうなるかに期待したいです。

Mantleももっと対応するゲームが増えてくるといいのですが…。
プロフィール

rigaya

Author:rigaya
アニメとか見たり、エンコードしたり。
連絡先(@を半角にしてください!)
rigaya34589@live.jp
github

最新記事
最新コメント
カテゴリ
月別アーカイブ
カウンター
検索フォーム
いろいろ
公開中のAviutlプラグインとかのダウンロード

○Aviutlプラグイン
x264guiEx 2.xx (ミラー)
- x264を使用したH264出力
- x264guiExの導入>
- x264.exeはこちら>

x265guiEx (ミラー)
- x265を使用したH.265/HEVC出力
- x265.exeはこちら>

QSVEnc + QSVEncC (ミラー)
- QuickSyncVideoによるH264出力
- QSVEncCはコマンドライン版
- QSVEncC 導入/使用方法>
- QSVEncCオプション一覧>

NVEnc + NVEncC (ミラー)
- NVIDIAのNVEncによるH264出力
- NVEncCオプション一覧>

VCEEnc + VCEEncC (ミラー)
- AMDのVCEによるH.264出力

ffmpegOut (ミラー)
- ffmpeg/avconvを使用した出力

自動フィールドシフト (ミラー)
- SSE2~AVX2による高速化版
- オリジナル: aji様

エッジレベル調整MT (ミラー)
- エッジレベル調整の並列化/高速化
- SSE2~AVX対応
- オリジナル: まじぽか太郎様

バンディング低減MT (ミラー)
- SSE2~AVX2による高速化版
- オリジナル: まじぽか太郎様

PMD_MT (ミラー)
- SSE2~FMA3による高速化版
- オリジナル: スレ48≫989氏

透過性ロゴ (ミラー)
- SSE2~FMA3によるSIMD版
- オリジナル: MakKi氏

AviutlColor (ミラー)
- BT.2020nc向け色変換プラグイン
- BT.709/BT.601向けも同梱

○その他
x264afs (ミラー)
- x264のafs対応版

aui_indexer (ミラー使い方>)
- lsmashinput.aui/m2v.auiの
 インデックス事前・一括生成

auc_export (ミラー使い方>)
- Aviutl Controlの
 エクスポートプラグイン版
 エクスポートをコマンドから

aup_reseter (ミラー)
- aupプロジェクトファイルの
 終了フラグを一括リセット

CheckBitrate (ミラー, 使い方, ソース)
- ビットレート分布の分析(HEVC対応)

チャプター変換 (ミラー使い方>)
- nero/appleチャプター形式変換

エッジレベル調整 (avisynth)
- Avisynth用エッジレベル調整

メモリ・キャッシュ速度測定
- スレッド数を変えて測定

○ビルドしたものとか
L-SMASH (ミラー)
x264 (ミラー)
x265 (ミラー)

○その他
サンプル動画
その他

○読みもの (ミラー)
Aviutl/x264guiExの色変換
動画関連ダウンロードリンク集
簡易インストーラの概要

○更新停止・公開終了
改造版x264gui
x264guiEx 0.xx
RSSリンクの表示
リンク
QRコード
QR