1) 머리말
20세기 초 시카고 대학의 밀리칸 교수는 전자의 전하가 전기량의 최소단위라고 주장하고 이 값을 실험을 통하여 측정하였다. 이 실험결과는 <피지컬리뷰>에 발표되고, 밀리칸이 노벨상을 수상하는데 중요한 역할을 하였다. 그런데 밀리칸이 일부 측정값을 논문에 포함하지 않았다는 사실이 알려지면서 밀리칸의 연구진실성에 관한 논란이 벌어진다. 밀리칸은 뛰어난 실험과학자일까요? 과학자의 암묵적 지식은 어디까지 허용될 수 있을까?
생명과학자를 대상으로 조사한 결과 많은 연구자들이 이상값(outlier)은 통계처리 이전에 제외시킬 수 있고, 여러 번 실험한 테이터 중 가장 마음에 드는 데이터를 골라 논문에 사용할 수 있다고 생각하고 있다(전방욱, 2007). 또한 결과가 확실하다면 데이터를 직감적으로 선택할 수 있다고 생각하는 연구자들도 상당 수 있다(전방욱, 2007). 이는 데이터를 선별하는 과정에서 연구자의 주관적인 판단이 많이 포함될 수 있음을 의미한다. 객관적이고 정확한 연구를 위해서는 자료를 처리하는 과정에서 신중한 자세가 필요하다.
2) 쟁점
밀리칸은 자료를 임의로 요리한 부정행위자입니까? 아니면 암묵적 지식을 지닌 뛰어난 실험과학자입니까?▶ 해설 :연구에 관한 모든 사항을 기록으로 남기는 것이 연구자의 기본자세이다. 그러나 기록을 남기는 데에는 여러 가지 한계점이 있다. 자신의 실험 노트에는 기록했을지라도 논문발표 시 지면상의 문제로 자료를 선별하는 경우가 있을 수 있다. 또한 여러 가지 이유(연구 환경의 변화, 기기 문제 등)로 실험 결과가 잘못 나올 수 도 있다. 분명한 오류는 제외할 수 있겠으나 문제는 어느 선까지가 제외할 수 있는 분명한 오류인지가 명확하지 않다는 것이다. 따라서 자료를 선별할 때는 선별한 사실과 기준을 정확하게 제시해야 한다. 데이터를 정확하게 기록하는 것은 논문 발표나 특허출원, 상업화 하는 과정에서 발생할 수 있는 여러 가지 분쟁에서 연구의 정확성을 증명해주는 중요한 자료로 사용할 수 있기 때문이다. 연구를 계획하는 단계에서 통계 전문가의 자문을 구하거나, 통계전문가와의 협의를 통하여 연구를 시작하는 것도 중요하다.
3) 참고자료
1) 규정 및 지침
- 생의학학술지 투고 원고의 통일양식” (Uniform Requirements for Manuscripts Submitted to Biomedical Journals)
- 국제의학학술지 편집인 위원회(ICMJE, International Committee of Medical. Journal Editors)
http://grp.or.kr/index.jsp?m1=4&m2=0&m3=2&nPostIndex=285&nPage=6
4.A.6.c 통계 : 연구 내용을 이해할 만한 독자가 연구 데이터를 확보했을 때 논문에 나타난 결과를 확인할 수 있을 정도로 통계학적 방법을 자세하게 기술하여야 한다. 가능하면 연구 소견을 정량화하고 측정 오차 또는 불확실성의 정도(예를 들면 신뢰 구간 등)를 표시하는 지표를 같이 제시한다. P 값 (P value)만 제시하는 경우와 같이 통계학적 가설 검정 결과에만 의존하여 중요한 정량적 정보를 전달하지 못하는 일은 피해야 한다. 연구계획과 통계검정에 대한 참고문헌은 가급적 검증된 표준을 페이지를 명시하여 인용한다. 통계학적인 용어, 약어, 기호를 설명한다. 통계에 사용한 전산 프로그램명도 기술한다.
4.A.7. 결과 : 연구 결과를 본문, 표, 그림을 이용하여 논리에 맞게 중요한 순서대로 기술한다. 표나 그림의 자료를 전부 본문에 반복하여 기술하지 말고 중요한 관찰 소견만을 강조하거나 요약한다. 보충 자료나 기술적인 상세정보가 필요하면 본문에 넣기보다 부록으로 추가하거나 아니면 전자저널에서만 제시하는 것을 고려한다. 결과에 연구에서 얻은 자료를 정리하면서 관찰한 자료의 절대치와 이를 정리한 상대치(derivatives), 예를 들면 백분율, 모두를 수치로 제시한다. 그리고 자료 별로 사용한 통계방법을 명기한다. 표(Table)와 그림(Figure)은 논문이 주장하는 논점을 설명하고 뒷받침하는데 필요한 것에 한정시킨다. 항목 (entry)이 많은 경우에는 표보다 그림으로 작성하고 같은 자료를 표와 그림으로 중복 제시하지 않는다. “무작위”(random) (무작위화를 의미하는 말), “정상” (normal), “유의한”(significant), “상관성”(correlations), “표본”(sample)과 같은 전문 통계용어를 비전문적으로 부적절하게 사용하지 않는다. 학술적으로 필요하면 연령이나 성별 같은 변수를 반영한 분석된 자료를 포함한다.
-원문 : http://www.icmje.org/
-번역 : http://www.kamje.or.kr/ (대한의학학술지 편집인협의회, 홍성태 번역)
(2) 도서
- 실험실 생활 길잡이
조은희, 김건수, 이상욱, 이준호, 정인실. (2007) 실험실 생활 길잡이 . 라이프사이언스
4장 바람직한 과학연구를 위하여-2. 과학실험의 기본 조건 p67~74
실험과정 및 결과의 정확성, 결과와 해석의 논리적 타당성, 올바른 통계처리의 중요성에 대한 내용이다.
- 과학연구윤리
폴 프리드먼 연구윤리서설 유네스코학국위원편 (2001) 과학연구윤리. 당대. p260~263
경계에 걸친 행위의 사례와 올바른 통계처리의 중요성
- 실천연구윤리
과학기술부 (2007), 실천연구윤리, 과학기술혁신본부 기술혁신평가국 평가정책과
http://grp.or.kr/index.jsp?m1=4&m2=0&m3=2&nPostIndex=684&nPage=1
2장 1절 책임있는 연구수행 p. 55~58
올바른 데이터 관리, 자료 측정 전과 측정 단계, 분석과 자료의 선택
4) 관련 사례
- 데이터 처리과정에서 실수를 했다면...
박사학위 5년차인 A는 논문을 투고한 다음 사소한 점 몇 가지를 지적받은 상태에서 정확한 해석을 위해서 실험노트를 다시 점검하였다. 그 과정에서 깜짝 놀랄 실수가 있었던 것을 알게 되었다. 그는 특정 약물들에 대한 세포의 반응을 정성적으로 기술한 실험에서 매우 큰 변화를 5점, 중간을 3점, 미미한 변화를 1점으로 처리하였는데, 기록에는 때때로 0이란 점수도 있었다. A는 논문작성시 0을 변화가 없는 경우로 간주하고 통계처리 하였으나, 실은 0은 실험이 제대로 되지 않아 data를 얻지 못한 경우였다. 즉, 실제로는 이 실험은 측정값은 1-5 사이였으나, A는 이를 실수로 0-5로 통계 처리한 것이다. 이 발견에 A는 즉시 제대로 통계를 잡아보았는데, 다행히도 결론은 변하지 않았다. 약물들의 효과차이의 유의성이 p=0.011에서 p=0.048로 변한 것 외에는 표나 그래프를 바꿀 필요도 없었다. A는 이를 논문에 언급할까 생각했으나 논문의 진위성에는 아무 문제가 없는데, 이를 드러냄으로서 괜히 자신의 데이터에 대한 불신만을 야기하게 될 것 같아 관두기로 하였다. 당신이라면 어떻게 하겠는가? 출처 : Francis L. Macrina. (2006) Scientific Integrity (3rd Ed). ASM Press, Washington, D.C. (황은성 등 (2007) 생명과학 연구자 연구윤리 교육자료, 보건복지부정책연구보고서에서 재인용)
- 이상값(outlier)을 어떻게 처리해야 할까?
대학원생 갑은 자신의 논문에 사용할 표를 작성하고 있다. 여러 번의 실험을 마치고 데이터를 지도교수 을과 검토하던 중 유난히 다른 양상을 보이는 데이터중 하나가 있어서, 지도 교수 을은 대학원생 갑에게 그 원인을 찾아 볼 것을 지시했다. 그러나 갑은 실험노트를 다시 보며 생각해 봐도 그 원인을 찾지 못했다. 다음 미팅에서 을교수는 문제되는 데이터를 이상값(outlier)으로 보고 통계적 분석에서 제외할 것을 지시했다. 그 결과 논문에 사용할 아주 긍정적인 표를 얻게 되었다. 을 교수의 데이터 누락 방식은 정당한가? 출처 : 전방욱 (2007) 생명과학 연구시 데이터 처리와 논문 출판의 윤리, 보건복지부정책연구보고서 p.95
- 기기 오작동의 문제로 발생한 잘못된 데이터
갑은 대학원생으로 특별한 항체 개발을 위한 연구에 지도교수 을을 돕고 있다. 을은 연구가 완료되면 유명 저널에 결과를 발표하려고 하고 연구를 도와준 갑을 공저자로 등재하려고 한다. 새롭게 생성된 데이터를 어떻게 분석하는지 알기 위해 갑은 을이 수 년 전 발표한 논문을 읽었다. 그러던 중 갑은 실제 수행된 실험노트에 기록된 데이터와 발표된 논문의 데이터가 다른 것을 발견하게 되었다. 을은 거의 10%에 해당하는 데이터를 누락시킨 것 같다. 갑이 을에게 이 사실에 관해서 묻자 을은 기기의 작동이 제대로 이뤄지지 않아서 데이터들을 생략했었다고 설명했다. 을은 논문에 모든 데이터를 포함시켜야 했을까? 해설 : 데이터 분석에 있어 어떤 분석 방법을 사용하였으며, 왜 사용하게 되었는지에 대한 솔직한 언급은 매우 중요하다. 데이터 준석의 복잡성이 편경이나 에러를 삽입하기 쉽도록 만들며, 데이터에 대한 허위 진술을 유도하기 때문이다. 이상값(outlier)의 배제, 없어진 데이터의 보충, 데이터 편집 등으로 오류가 발생된다. 10%에 해당하는 데이터가 기기 오작동으로 발생했다는 것을 증명하기 위해서는 실험노트에 분명한 기록이 있어야 한다. 분석에 포함시키지 않은 정당한 이유가 나타나 있지 않는 경우 자신이 주장하려는 경향을 돋보이게 하기 위해 의도적으로 행해진 부정행위로 간주 될 수 있다. 정당한 이유를 찾지 못하는 경우에 종종 자기기만(self-deception)에 의한 데이터 생략이나 누락이 원인일 수 있다. 데이터 수집, 연구 디자인 그리고 데이터 분석에 영향을 미칠 수 있는 관찰자 편견(보고자 원하는 것을 보는)이 가장 대표적인 자기기만이며, 이런 행위는 충실한 연구로부터 거리가 먼 행동이 된다. 출처 :전방욱 (2007) 생명과학 연구시 데이터 처리와 논문 출판의 윤리, 보건복지부정책연구보고서 p.96