• 検索結果がありません。

Hadoopによる大量データ分散処理

ビッグデータアナリティクス - 第3回: 分散処理とApache Spark

ビッグデータアナリティクス - 第3回: 分散処理とApache Spark

... これを集計して,日本語で書かれているツイートは全体の何 % なのかを調べたい ”lang”:”ja” が何回出てくるのかを計測(コマンドラインによる方法) % cat /project/bigdata-lab/bda/tweet_20171004.json | grep \"lang\":\"ja\" |wc -l (数十分かかる) ...

32

魚群探知機のデータ分析及びエラー処理による海底地形図の作成

魚群探知機のデータ分析及びエラー処理による海底地形図の作成

... 公立はこだて未来大学 Future University – Hakodate 1.まえがき なまこけた網漁業[1]は,けた網という間口に海底から ナマコを引き剥がすためにチェーンがついている網を曳 航する漁法である.曳航中に正確な海底地形図あれば, 地形の変化に対応でき操業の効率があがる.現在最も広 く利用されている海底地形図は,航海用電子参考図であ る.しかし,航海用電子参考図は海上保安庁刊行の海の ...

1

White Paper EMC DATA DOMAIN BOOST と SYMANTEC NETBACKUP の分散重複除外機能によるバックアップ処理の高速化 実機による検証結果の報告 要約 EMC Data Domain Boost for Symantec OpenStorage( 以下 DD

White Paper EMC DATA DOMAIN BOOST と SYMANTEC NETBACKUP の分散重複除外機能によるバックアップ処理の高速化 実機による検証結果の報告 要約 EMC Data Domain Boost for Symantec OpenStorage( 以下 DD

... Data Domain とのやり取りが行われるバックアップ LAN の有効帯域は 2Gbps であ るため、 DD Boost を無効にした場合には、その帯域上限がボトルネックとなりイ ンフラ全体の性能を押し下げているのがわかります。 一方、DD Boost を有効にした場合には、仮想マシン間での重複除外がバックアップ 時間の初期段階から効果を発揮した結果、バックアップ LAN における実際の転送 ...

17

Who am I? 名前 松尾康博 所属 アマゾンウェブサービスジャパン株式会社 ソリューションアーキテクト 製造業の HPC CAE ビッグデータ解析等を担当 経歴 九州 大学でスパコンの効率率率化研究 SIer で分散キューの開発 導 入 分散処理理

Who am I? 名前 松尾康博 所属 アマゾンウェブサービスジャパン株式会社 ソリューションアーキテクト 製造業の HPC CAE ビッグデータ解析等を担当 経歴 九州 大学でスパコンの効率率率化研究 SIer で分散キューの開発 導 入 分散処理理

... 京セラドキュメントソリューションズ様 Docurium for FAX Service 複合機からアップロードされたFAX受信データをDocuriumセンターに一時蓄積すると共に、担当者にメール通知 するサービス。 ...

90

大量の実世界データから 今 を分析するストリームデータ処理の可能性 2008 年 11 月 18 日株式会社日立製作所中央研究所主任研究員西澤格 Hitachi, Ltd All rights reserved.

大量の実世界データから 今 を分析するストリームデータ処理の可能性 2008 年 11 月 18 日株式会社日立製作所中央研究所主任研究員西澤格 Hitachi, Ltd All rights reserved.

... ストリームデータ処理 : ストリーム : 無限に到来する時刻順データ系列 ex) センサネット,RFID読取り情報,交通情報,株価情報 … リレーショナルデータベースの関係代数モデルに基く,ストリームの 継続的リアルタイム処理 (選択,射影,結合,集合演算,集計…) ...

26

大量のデータを使用するリリースのベストプラクティス

大量のデータを使用するリリースのベストプラクティス

... 項目が生成および非同期で処理されます。検索可能なオブジェクトのレコードが作成または更新された後、更 新されたテキストを検索できるようになるまで約 15 分またはそれ以上かかることがあります。 Salesforceでは、最初に適切なレコードのインデックスを検索し、次にアクセス権限、検索制限、およびその他 の検索条件に基づいて結果を絞り込むことで、インデックス付き検索が実行されます。このプロセスで結果 ...

29

情報処理学会研究報告 IPSJ SIG Technical Report Vol.2015-DBS-162 No /11/26 最小二乗法のストリーム処理における桁あふれ回避方法 1 今木常之 概要 : オンライントレード,SNS,IoT などで大量に生成する, 時系列データの予測値を

情報処理学会研究報告 IPSJ SIG Technical Report Vol.2015-DBS-162 No /11/26 最小二乗法のストリーム処理における桁あふれ回避方法 1 今木常之 概要 : オンライントレード,SNS,IoT などで大量に生成する, 時系列データの予測値を

... 最小二乗法のストリーム処理における桁あふれ回避方法 今木 常之 †1 概要:オンライントレード,SNS,IoT などで大量に生成する,時系列データの予測値を算出する基本技術として, 最小二乗法のストリーム処理方法を検討した.処理が長期間継続すると,近似対象であるグラフの横軸にあたる時刻 ...

8

大量のデータを使用するリリースのベストプラクティス

大量のデータを使用するリリースのベストプラクティス

... Salesforce では、頻繁に使用される項目を含めるようにして、さらに結合を避けるためにスキニーテーブルを作成 します。また、ソーステーブルが変更されたときにはスキニーテーブルとソーステーブルの同期が保たれます。 スキニーテーブルを有効にするには、salesforce.com カスタマーサポートにお問い合わせください。 各オブジェクトテーブルでは、データベースレベルで標準項目およびカスタム項目用に他の別個のテーブルが保 ...

27

マイクロソフトと大規模データ処理

マイクロソフトと大規模データ処理

... Sqoop  Hadoop 上で大規模な機械学習を行うためのライブラリ  典型的には、ネットワーク経由で収集される大量データを基に、 レコメンデーション エンジンの作成や評判分析に利用される。 ...

57

3Dプリンタを用いた心臓血管立体モデルの作製 ─CT撮影法からDICOMデータ処理及びプリンタによる造形まで

3Dプリンタを用いた心臓血管立体モデルの作製 ─CT撮影法からDICOMデータ処理及びプリンタによる造形まで

... を有さない作業者による生体画像の処理は,不自然な形状 変更を招く恐れがある。費用については,本稿の1症例で の見積もり額は当該手術手技料の1割を超えた。 我々は,CT撮影から3Dプリンタまでの一連の作業をプ ロジェクトチームで一貫して行って立体モデルを作製した ため,結果を常にフィードバックしながら各工程を精確に 調整することができ,比較的単純な大血管や心腔内形状の ...

7

第8回 複数の誤差を伴なう分散分析の基礎 経時データへの応用

第8回 複数の誤差を伴なう分散分析の基礎 経時データへの応用

... 単位は ng・hr/mL,[ ] 内は実験順序.データは pk_6sub_3dose_art.jmp. このデータは,投与量を x,AUC を y としたときに,y が x に比例して増大し,それ に伴ない標準偏差も増大するようにして人工的に作成したデータである.このような現 象は,薬物動態の試験からしばしば得られる.人工的に作成したのは,個人間の誤差, ...

33

情報処理学会研究報告 IPSJ SIG Technical Report Vol.2014-CSEC-67 No /12/5 秘密分散法における検証可能な分散情報の更新手法 神宮武志 1 古田英之 1 岩村惠市 1 本稿では, 秘密分散法の分散情報の更新手法について考える. 著者らは [

情報処理学会研究報告 IPSJ SIG Technical Report Vol.2014-CSEC-67 No /12/5 秘密分散法における検証可能な分散情報の更新手法 神宮武志 1 古田英之 1 岩村惠市 1 本稿では, 秘密分散法の分散情報の更新手法について考える. 著者らは [

... 秘密分散法(secret sharing scheme)[2] は,一つの情報 を複数の異なる情報に変換し,そのうちの一定数以上が集 まれば元の情報が復元可能だが,その数未満では元の情報 は全く復元されないという手法である.これによって,サ ーバやネットワークの障害などによりデータの一部が使え なくても一定数以下ならば元の情報が復元でき,さらに一 定数以上の情報が漏洩しない限り情報漏洩は起こらないと ...

6

講義の流れ 並列プログラムの概要 通常のプログラムと並列プログラムの違い 並列プログラム作成手段と並列計算機の構造 OpenMP による並列プログラム作成 処理を複数コアに分割して並列実行する方法 MPI による並列プログラム作成 ( 午後 ) プロセス間通信による並列処理 処理の分割 + データの

講義の流れ 並列プログラムの概要 通常のプログラムと並列プログラムの違い 並列プログラム作成手段と並列計算機の構造 OpenMP による並列プログラム作成 処理を複数コアに分割して並列実行する方法 MPI による並列プログラム作成 ( 午後 ) プロセス間通信による並列処理 処理の分割 + データの

... MPIの利点と欠点  利点1.高速化に向けた細かいチューニングが可能  通信のタイミングや転送するデータの大きさ、さらに処理のプロセスへの分担のさせ方 やデータの配置方法等、性能に影響する事項をプログラムで直接指示できるので、慣 れれば高い性能を得られやすい。 ...

68

ILASデータ処理運用システム

ILASデータ処理運用システム

... ● データ処理アルゴリズムの概要 (1) レベル1処理とレベル2処理 処理は大別してレベル1処理とレベル2処理に分けら れる。レベル1処理は,NASDA/EOCを経由して受信 したILASの観測データであるレベル0データ処理し, ...

11

Hadoop とは 大規模なデータを並列分散処理を行うフレームワークを提供 Google による MapReduce および Google File System(GFS) の論文をベースに開発された Apache プロジェクトの OSS MapReduce MapReduce 分散処理フレームワー

Hadoop とは 大規模なデータを並列分散処理を行うフレームワークを提供 Google による MapReduce および Google File System(GFS) の論文をベースに開発された Apache プロジェクトの OSS MapReduce MapReduce 分散処理フレームワー

... ● Key-Value ペアからなるレコードを入力として受け取る ● 新しく Key-Value ペアを生成して出力 (中間データ) – 例) 《行番号,テキスト》 ⇒ 《単語,行番号》 ● Shuffle & Sort ...

39

データベース機能の基礎知識 データベース処理に便利な機能 入力規則 データの並べ替え フィルタ処理 大量のデータを分析する CSV ファイルをインポートする データパイロットによる集計作業 マクロの記録.

データベース機能の基礎知識 データベース処理に便利な機能 入力規則 データの並べ替え フィルタ処理 大量のデータを分析する CSV ファイルをインポートする データパイロットによる集計作業 マクロの記録.

... タ)として、フィールド名(項目名)の下に整然とデータを入力する必要があります。また、他の データからは、空白セル(空白行と空白列)で区切って、切り離しておきます。これらの条件に該 当する部分が、データベースとして認識され、その範囲にデータベースとしての処理を行うことが できます。 ...

57

ビッグデータ分析を高速化する 分散処理技術を開発 日本電気株式会社

ビッグデータ分析を高速化する 分散処理技術を開発 日本電気株式会社

... [ご参考] MapReduceとは ▌ Hadoopでは、「MapReduce」 を単位として分散処理を実現 ▌ 分散して処理を行う Map処理 とその結果を集約する Reduce処理 から構成  Map処理の出力では、データの種類を「キー」として指定 ...

17

yamamoto_hadoop.pptx

yamamoto_hadoop.pptx

... • 上記のどれかにだけ注目して利用することも可能 – RAIDの代わりにHDFSのみ利用してデータの冗長化をしたい – 分散処理だけ利用したい (※ Hadoopで分散処理するにはHDFS上にファイルを置いた方が分散性があがる) ...

21

Show all 10000 documents...

関連した話題