バックナンバー

社長コラム
バックナンバー一覧はこちら
コラム30 現場的統計手法その2 「代表値」という概念を用いるコペルニクス的転換 2012.2.3

前回に引き続き、同じ例題を用いて解説を試みます。

例題)ポットカーネーションの新品種Aと既存品種B(対照)の主要な農業特性の違いにつき把握するために試験設計を組んで、その違いを明らかにしようとする。


STEP2:生データの取得と「代表値」を用いた解析の準備

第2表 統計的解析のための草丈「代表値」の整理

第2表


まずは、第2表を見てください。
これは俗に言うところの、「野帳(温室や圃場で生データ=1次データを取るノート)」と言っても良いかもしれません。

「代表値」という聞きなれない言葉が目に付くでしょう。
ここがポイントで、まさに「コペルニクス的転換」点です。
統計的方法を用いて、ある集団(品種あるいは処理区または反復ブロック)と別の集団(品種あるいは処理区または反復ブロック)を比較しようとする時に、解析に用いるデータは、(母)集団を代表するものでなければならない、という徹底した理解がまず必要です。
ここで陥りやすいのが、「農業形質はばらつくのが当然。だから、個体測定データをそのまま、たくさん、解析に使うのだ。」という考えです。
勿論、それが統計的解析の王道ですが、私は以下の理由でお薦めしません。
(1)

個体データをそのまま使うと解析計算が膨大で(絶対に!)手に負えない

(2)

個体間ばらつきが予想以上に大きいケースが多々あり、その際は、結局、集団(品種、処理区)間の差異を検出できない。となると、いつも、「集団間の差異は有意ではない。」という結論を導いてしまいがちです。


ですので、上記(1)(2)を避けるためにも、「現場的手法」として「代表値」を解析に用いることをお薦めします。


前置きが長くなりましたが、「代表値」と言っても、何のことはありません。

ただ、複数個(3個以上が望ましい)の生データ、すなわち、個体調査データの平均値なのです。

ここで、再び声を大にして申し上げますが、「この代表値がある集団(品種あるいは処理区または反復ブロック)を代表している」という認識が重要なのです。


ですから、複数個(3個以上が望ましい)の個体を集団から慎重に選ぶ必要があり、「プロとしてのサンプリング」技能が求められます。

これも非常に大事なポイントで、集団を代表するような個体を抽出する能力(眼力)こそが、プロフェッショナルな生産者の皆さんが知らず知らずのうちに会得されている「奥義」ではないか?と感じることもあるぐらいです。

この集団を代表するような個体の成育(例えば開花や分枝)や問題点(例えば病気発生)などに合致させる形で、管理(追肥や薬剤散布)の内容を決定していくプロセスこそが、「バラつきのある農業で成功する耕種概要」だと信じます。


最後に、蛇足ですが、「代表値」の概念を導入する事と同じくらいに重要な心構えは、「必ず、反復(ブロックの反復、個体の反復ではない。)を確保すること。」です。

ひとことで乱暴にまとめると、統計的処理方法の肝は

「集団間(処理区間、品種間)の差異が、集団内(処理区内、品種内)の差異より大きいかどうか?」を数学的計算式で確認する作業

なのです。


では、その数学的計算式?(というより、「数学的処理手続き」と考える方が心休まりますし、まさに「コペルニクス的転換」なのですが)はどのようなものなのか?については、次回ご説明します。

Do you enjoy?



2012年2月

代表取締役社長 清水 明

Dear customers;


This time, I will try to explain the 2nd chapter of this theme, that is, “How to obtain the useful data in your experimental analysis”.

I believe that introduction and understanding of the image of “Representative data” is quite effective in your business front oriented analytical activity.


I will proceed to explain by using the same example as previous column.


STEP 2 : Individual-raw data taking and preparation for statistical analysis using “representative data”

Table 2. Preparation for statistical analysis : Plant Height

Table 2

Remark : “Indvi” means “Individual-raw” data

In the table 2 above, you can see un-familiar word “Representative” data.
This wording is quite crucial, which is Copernicus like turning point, I believe.

There must be basic and full understanding that if you want to use any data in order to distinguish one group/population and others, you have to carefully choose and use data which shall represent mother population as precise as possible.

However, people tend to drop into the following thoughts, that is, “Since agriculture traits often show big deviation, thus, it might be wise to use many, many individual raw data which can be used for analysis directly.”
Yes, I fully agree with this thoughts because it is the way of King, however, I do not recommends you as a person who needs statistical analysis knowledge at the agriculture business front with the following reasons.

1.

In the event that you use too many individual raw data as it is, you can not (absolutely) handle these data properly.

2.

In many cases, the deviation among individual raw data is quite bigger than expected. And, finally and eventually, you can not find out any significant differences between populations (varieties treatments).


In short, I strongly recommend you to use the representative data for calculation purpose instead of individual raw data in order to avoid inconvenience shown in 1 and 2 above.

Maybe, I am rather exaggerating a little bit, but please do not be afraid of the image of representative data at all.
What you have to do in order to obtain representative data is only just to make average of multiple (hopefully more than 3) individual raw data.


With Best Regards,

Akira Shimizu

前の記事を読む 次の記事を読む

Copyright 2016 Japan Agribio Company,Limited,All Rights Reserved.