Top PDF 大規模データの保管と大規模データの分析

PostgreSQL10 を導入! 大規模データ分析事例からみる DWH としての PostgreSQL 活用のポイント 2017/12/5 株式会社 NTT データ 2017 NTT DATA

... • 近年のPostgreSQLは、パラレルクエリをはじめとして、大量 データに対して分析クエリを流すようなDWHとしての用途で活用できる機能が強化されています。 • 本講演では、DWHとしてPostgreSQLを扱うときに、 ...

40

大規模データを対象とした分析処理の高速化に関する取り組み Papers & Presentations Onizuka Laboratory

... User Program worker worker Input Data fork fork fork Master worker assign map assign reduce Output File 0 Output Split 1 Split 0 Split 2 Split 3 worker worker worker [r] ...

89

大規模データベースを用いた信用リスク計測の問題点と対策(変数選択とデータ量の関係)

... 本研究では，「ステップワイズ法」を試みた．変数選択の基本的な方法としては，適当な基準により説明変数を１つずつ加えていく「変数増加法」と，逆にすべての説明変数を用いた分析から１つずつ変数を減らしていく「変数減少法」がある．変数増加法では，一度取り込んだ変数は，新たな ...

44

マイクロソフトと大規模データ処理

... Sqoop  Hadoop 上で大規模な機械学習を行うためのライブラリ  典型的には、ネットワーク経由で収集される大量のデータを基に、レコメンデーションエンジンの作成や評判分析に利用される。 ...

57

様々な多重代入法アルゴリズムの比較～大規模経済系データを用いた分析～

... に大きな差が見られた。Amelia と SAS は、シミュレーションデータにおいても、経済センサス‐活動調査の速報データにおいても、十分な性能を発揮することが分かった。Norm は 27 万×3 変量のデータセットを分析することができず、大規模データセットの多重代入には向 ...

44

Publication 論文鈴村研究室大規模データ処理・ストリームコンピューティング

... LIN と比較して計算量を減らす手法である．計算量を比較すると， BB LIN が 2 部グラフの 2 つの頂点群のうち要素が少ない頂点集合（ L と定義する）の要素数の 3 乗の計算量がかかるのに対し， FSU では計算量は L の 2 乗となり， ...

12

Publication 論文鈴村研究室大規模データ処理・ストリームコンピューティング

... を replicated 次元分割比較エメネある replicated 通信ターシ理論値を算出モネ゙ヤンケ実装，ターシい部分゠メー計測ころある Simple テーチ数を大くるベペモ不足゠メーり， Replicated-csr Scale 32 validation ゠メーり， Scale 33 ...

8

Publication 論文鈴村研究室大規模データ処理・ストリームコンピューティング

... あら大規模成長続るエメネ構を持タヴシを，モ゚ャシ゜ヘ性を考慮効率よ解析る，タヴシケダモヴヘ処理を用い゜ンェモベンシャエメネ処理を提案る．計算ペタャ Incremental GIM-V を提案，タヴシケダモヴヘ処理系 IBM System S を用い実装評価を行い，より効率的適用範広いタヴシケダモヴヘエメネ処理向議論る．人工タヴシよる PageRank ...

6

大規模動的ネットワークに特化したグラフデータ格納基盤

... • ソーシャルネットワークデータに対する解析：動的な重要度、影響度の判定。各点の周辺、及び広域内における影響（情報の伝播力)を推定する • その他：疫病の拡散、人口の増減、経済動向等の分析。ライフライン等の基盤計画（電力、水、食料）。生命科学系（創薬、遺 ...

37

Publication 論文鈴村研究室大規模データ処理・ストリームコンピューティング IC2010 ueno

... 変化点検知アルゴリズム SST *1 *1 Tsuyoshi Ide, et al, Knowledge Discovery from Time-series Data using Nonlinear Transformations, The 4th Data Mining Workshop of JSSST 2004 SVD （特異値分解）を計算し、時系列データ の特徴を抽出 ...

20

Publication 論文鈴村研究室大規模データ処理・ストリームコンピューティング

... E-mail: [email protected], [email protected] あ本研究，々刻々流計算処理操作を行う出来処理処理系を用い並列音声識を実装．処理系記述力音声識並列散，処理拡張容易行えを示，識処理を 4 16 構成散並列環境ン比較、 ...

9

PDF Graph500 への挑戦鈴村研究室大規模データ処理・ストリームコンピューティング

... を増しており、Graph500ベンチマークが広がりを見せている。Graph500 のリファレンス実装は、使用されているアルゴリズムの問題により、分散メモリ環境で大規模にスケールさせることができなかった。そこで、大規模にスケール可能な２次元分割に ...（Graph500 のScale 36）のBFS(幅優先探索 ...

4

1B2-1 大規模学術論文データの共著ネットワーク分析に基づく萌芽領域の中心研究者予測に関する研究

... 特に，経営戦略の立案，技術経営，イノベーション政策の点から重要な点の一つは，現時点では未成熟で産業応用に制約が大きいが，関心を集め急速に立ち上がりつつある研究領域，萌芽領域，を早期に特定することである．萌芽領域は，技術シーズ発展のＳ字カーブ論でいう初期ステージにある技術群に当たり，こうした領域の中に，将来，経済・社会的に高い価値を生 ...

2

Publication 論文鈴村研究室大規模データ処理・ストリームコンピューティング StreamGPU 20120516

...  5 万個のセンサーがあるとする  4node(16 コア ) で分散処理しても、 SST で各センサーからの入力データを 1 つ処理するのに、 10 分かかる  IKA-SST *1*2 (SST の近似を高速に求めるアルゴリズム ) で計算し ...

45

食料品アクセス問題と健康・栄養－大規模個票データを用いた分析－

... ８対象を 65 歳以上に限定し，独立した 2 群の t 検定を行う。サンプルサイズを勘案し所得階層別には分類していない。検定に当たり三大栄養素の摂取割合は対数変換した。９目標量はひとつの値ではなく，範囲であるため中央値を用いる。それぞれの栄養素の目標量の範囲は以下の ...

12

大規模データの匿名加工処理を高速化する技術を開発

... 進んでいます。 データの匿名加工処理においては、例えば同じ属性を持つデータが一定数以上存在するようにデータを変換し、個人が特定される確率を低減するといった措置を行います。しかし、このような匿名加工処理の過程では情報が失われる可能性があり、有用な情報量を確保するためには、データの抽出範囲や加工単位などを細かく調整しながら、デー ...

6

中心市街地の大規模駐車場の費用便益分析

... 場均衡条件から従業員賃金 Glおよび商業床のレント 11の費用は上昇する。一方、郊外商業施設におぃては、商業販売額の便益 F3が減少する一方で従業員賃金 Gl、床レント 12の費用も減少する。消費者の購買額の総合計が変わらないものと仮定すれば、商業主体に帰属する便益は相殺されゼロとなる。ディベロッパーの利潤は式 (16)[r] ...

12

大規模データ天文学の進展

...  リダクションソフトの管理を一元化。過去バージョンのソフトによる再リダクションをサポート。  請求の多い処理済みデータはアーカイブに蓄積。同じリダクションを繰り返さない。 ...

33

Learning Bayesian Network from data 本論文はデータから大規模なベイジアンネットワークを構築する TPDA(Three Phase Dependency Analysis) のアルゴリズムを記述 2002 年の発表だが現在も大規模用 BN モデルのベンチマークと

... ● 確率伝播法（ノードを辿って確率が伝播する）風が吹けば桶屋が儲かる式の知識発見ができる 2. データから確率分布のパラメータ推定 ● 本論ではデータの頻度で確率を計算するので言及せず ...

18

Publication 論文鈴村研究室大規模データ処理・ストリームコンピューティング IC2010 ueno paper

... 知大対規模計算繰返場合多 GPGPU 手法高速化． GPU 並列高速化提案．変化検知１あ特異変換計算多特異値解占い特異値解計算う二対角化 GPU 並列実装行列 320 数 256 CPU 1 対 17.22 倍高速 ...

8

大規模データの保管と大規模データの分析

関連した話題