문학작품의 표절에 대한 과학적 분석.

MBC 드라마 <커피프린스 1호점> 작가 이선미씨의 로맨스 소설 <경성애사>가 소설가 조정래씨의 대하소설<태백산맥>을 표절한 대목은 총 9군데인 것으로 확인됐다. 이는 누리꾼들이 찾아낸 5군데보다 4군데가 더 많은 것으로또다시 추가 표절 대목이 드러난 셈이다.

이러한 사실은 조환규 부산대 교수(컴퓨터공학과, 전산학 전공)가 개발한 문서표절 추적 프로그램('devac')에 의해 밝혀졌다.

조 교수는 3일 <오마이뉴스>와의 전화통화에서 "원래 학생들의 리포트 표절을 검사하기 위해 프로그램을 만들었는데 <경성애사> 표절 기사를 보고 그 프로그램을 가동해 <태백산맥> 10권과 비교해보니 표절이라고 단정할 만한대목이 9군데로 나타났다"고 말했다.

(중략: 자세한 표절 내용은 원문에서 보삼)

조환규 교수는 '절대유사도'라는 개념을 통해 <경성애사>의 표절 정도를 분석했다.
 
'절대유사도'란 표절 부위의 크기를 가리키는 개념으로 이 수치가 높을수록 표절은 더욱 확정적이다. 조 교수는 "절대유사도가 150 이상이면 표절로 판정해도 무방하다"고 말했다.


조 교수의 분석에 따르면, <경성애사>가 <태백산맥>을 표절한 9군데의 절대유사도는 평균 216.78로 나타났다. 한마디로 <경성애사>의 표절은 확정적이라는 얘기다.

(후략)

(오마이뉴스, 파란 뉴스보기: "<경성애사> 총 9군데 표절... 질 안좋아")




위 내용을 소개한 찬별 님은 아래와 같은 문제점을 제기했다.

1. 조환규 교수의 이번 발표는 문학에 대한 관심이 아니라 언론의 주목을 노린 것

2. 문장유사도를 분석하기 위해 사용한 텍스트 파일의 출처는 저작권법을 위반한 결과물이 아닌가?

모 전산교수, 경성애사, 태백산맥 총 9군데 표절이라고 밝혀
(찬별은 초식동물 : http://coldstar.egloos.com)



이에 대해서, 조환규 교수님(본인인지 확인할 길은 없으나, 내가 보기엔 그런 같다)이 덧글로 의견을 개진했는데 그 내용이 재미있어서 정리해본다. 글쟁이들은 필히 읽고 마음에 새길 것!

(원래 문장은 그대로, 순서는 읽기 편하게 재편집한 부분 있음, 문단 편집했음. [*  ] 로 표시된 부분은 작나무가 임의로 삽입한 구절임.)

Commented by 조환규 교수 at 2008/01/04 20:02

반갑습니다. 그 분석한 교수입니다.
뭐 작가를 잡으려고 한 일은 아니고요,

제 이름을 알리고자 한 것도 아닙니다.
이걸 팔아서 돈벌이 하려고 한 것도 아닙니다.

소인배?- 는 맞습니다. 생각해보니.. 하하..

오마이뉴스와 인터뷰한 내용이 그대로 올라가서 좀 그렇습니다.
기사화 될 때는
상의를 하자고 했는데 그냥 그대로 올라갔네요.
(제가 보기에도 참 안좋습니다)

그것이 기자 특권인지는 모르지만. 몇가지 올리신 글에 의견을 드리면

표절의 기준은 상대량이 아니라고 절대량입니다.
악보에서는 8마디가 같으면 표절입니다.
아무리 곡이 길어도 상관없습니다.
한글[*문서]에서의 표절은 아직 규정이 없습니다.

연구한 바에 의하면 우연히 같을 어절의 길이는 3-4 어절 정도 됩니다.

1,000만 개의 어절로 된 한글문서[*에서] 15개 이상의 어절이 같은 확률은 매우매우 작습니다.
(한국국어연구원에서 10년간 모은 한글말 뭉치를 모조리 비교한 결과입니다.)

그러면에서 볼 때 이선미 작가는 좀 많이 부주의한 편이라고 볼 수 있지요.
본인도 솔직히 시인을 했으니 인간적으로도 잘 완성된
사람이라고 생각합니다.
처음에 밝힌 변명이 좀 군색했지만,
하긴 누군들 그렇지 않겠습니까 ?

자료는 배포한 e-Book에서 추출했습니다.

태백산맥은 인터넷에 돌아다니는 것을 구했습니다.
( 집에 태백산택 paper 책이 있으니 좀 덜 미안하게 생각합니다. 하하...)

글 쓰는 일은 신성한 작업입니다.
적어도 이 일을 업으로 하는 사람이라면
세상에 보내는 글을 쓸 때에는,
제단에 기도하는 심정으로 몸과 마음을
씻고 글을 써야 한다고 생각합니다.
[* 먹고 살다기 바쁘다보니 그러기가 쉽지 않습니다만...백번천번 옳으신 말씀.]

이 일은 시작한 이유는 매우 단순합니다. 잘 아시다시피
남의 숙제를 베껴낸
놈들이 성적을 더 잘 받는 일이 비일비재 합니다.
교수님들은 그것을 또한
잘 모릅니다.
표지가 화려하고 글씨가 좋으면 더 점수를 잘 줍니다.
밤새 고생해서
글 쓴 학생들이 피보는 세상,
베껴 낸 놈들이 희희낙낙하는 세상...


- 세상이 이래서는 안된다고 생각합니다. [*그렇죠!]

교수들이 검사를 못하는 이유는 기술적인 이유입니다.
50명의 보고서를 어떻게 모두 쌍으로, 그것도 문장하나씩 검사를 하겠습니까?
그래서 만들어 보았습니다.
세상에 조그만 촛불을 하나 켜는
심정을 이해해주시면 감사하겠습니다.



Commented by 조환규 at 2008/01/04 20:53

사실 "표절"은 매우 정치적인 결정입니다.
제가 드릴 수 있는 말은
두 독립된 작가(따로 따로 떨어져서 글을 쓰는 사람)이 글을 쓸 때
우연히 7개의
어절이 같을 확률은 0에 가깝다는 과학적인 사실입니다,

표절의 정의를 매우 우악(?)스럽게 해야하는 이유는
위와 같이
<*권지예 표절사건> 주장하는 사람이 있기 때문입니다.
그렇지 않으면 모두 피해나갈 수 있습니다.
약간 표절이다, 조금
표절이다, 중간 표절이다...
이렇게 스펙트럼을 넓히면 다 빠져나갑니다.

[*역시 과학자는 위대해, 공돌이는 위대하다는 모기불 말씀에 공감.]


한글 TEXT를 뽑는 가장 간단(무식)한 방법은
e-book을 화면에 띄워서 캡쳐헤서
문자인식 sw로 뽑는 방법입니다.
보통 이렇게 하지요. 반나절 하면 된다고 합니다.

다시 확인해보니 경성애사는 mp3 e-book으로만 나왔다고 합니다.
이번에 사용된 화일은 사람이(알바?) 쳐 넣은 것이 떠도는 것이라고 합니다.
(확인은 안됐지만 맹인용 점자책을 위해서 선의(?)로 이런 수고를 하시는 분이 있다고 합니다.)

경성애사 건에서 <질 낮은 .. > 이라는 제 표현을 참 글로 보기에 부끄럽지만
<4월>을
<9월>로, <푸름>은 <누름>으로 고친 대목에서 좀 화가 났습니다.
대학생 중이 이런
넘들이 있습니다.
원본에서 < .. 23.1%의 농도가>를 <정확하게 23.14%의 농도가>
이렇게 합니다.
참 저열한 기만 행위지요.
그냥 순진하게 그대로 베끼는 것보다 나쁜
행위가 생각나서 해 본 말입니다.
[*진짜 질 나쁜 넘들이다. -_-;]

99.9% 순수한 창작은 사실 없습니다.
그러나 논문에는 인용한 논문의 참고문헌을
꼭 표시해야하는 규정이 있습니다.
문학작가도 후기에 뭐 이런 식의 글은 있으면
좋겠습니다.
<....이번 작품에 영향을 미친 글은 ......많이 배울 수 있는 기회가 되었고

소재는 .. 을 읽으면서 친구... 와 술마시면 떠든 이야기에서 만들 수 있었고.....>
[*참고하고 유념할 내용!]

갈수록 <윤리/도덕>이 뭐 거추장스런 장애가 되는 것 같아서 참 아쉽습니다.
누군가 그랬듯이 <경제>만 살리면 되는것인지, 탄식이 절로 나옵니다.



Commented by 조환규 at 2008/01/04 21:05


말씀하신 그 "봉인"과 "시골의사의 .." text가 운좋게(?) 구해지면
한번
돌려보고 결과는 이 곳에 올리겠습니다.
(혹시 화일 구할 수 있는 방법이 있으면
좀 알려주시고요).
- (2005년도 사건이라 제가 과문했습니다.)


표절판단은 문단이 권위자들이 하는게 아니지요.
그것은 그에 관련된 두 작가만이 결정할 수 있다고 생각합니다.
만일 관련된 분들이 이런 일을 맡기시면
언제든지
공명정대하고, 과학적인 결과를 드릴 수 있십니다.

[*정말 해주실 것 같으니까 기억해두자!]


Commented by 조환규 at 2008/01/05 00:48

[*전략] 이번 건을 보면서 제가 느낀 것은 <경성애사>와 같이
어떻게 보면 부주의한 사고로
부터 작가를 보호해줄 장치가 필요한 것 같습니다.
이전부터 제가 관계기관에
<창작물 등록센터>를 만들자고 했습니다.
이번 <경성애사>나 <고대총장 논문표절>
문제와 같이 오래된 사건이 불거져 나오면
저자는 항변할 길이 없습니다.


만일 어떤 공인센터에서 저작물을 digital로 받아서
이미 그 센터에 등록된 저작물
과 비교하여
일정부분 일치한 부분이 있으면 걸르고,
해명을 받아서 <표절이상무>
판정을 해서 등록을 해줘야 합니다.
작가도 그랬지만 인터넷에 널리고 널린 글,
저자도 불분명한 글을
무심코 옮겨쓰거나 고쳐 써다가는 큰 봉변을 당할 수
있습니다.

[*지적재산권 보호에 대한 의지는 알겠지만... 이건 좀 무섭다능]

장담컨데 제가 쓴 글도 모조리 쫙쫙 걸러보면 자기표절이 있을 겁니다.

교육부에서 학위논문 백만건을 워드화일로 모으면 뭐합니까?
아무짝도 쓸모없는
ASCII 덩어리에 불과합니다.
제목과 keyword로만 검색되는 논문, 그 안에 표절은
불보듯이 뻔 합니다.
(제가 잔뜩 별르고 있으니 좀 지켜 봐주시기 바랍니다.)

[* 교수님 힘내세요~!]

사실 제가 제일 걸러보고 싶은 문서는
국회 연구보고서나 국가기관 보고서,
교육부에 등록된 학위논문입니다.
맞습니다. 그안에서 정말 엄청난 표절이 숨어 있을 겁니다.
제보도 좀 많이 받았고요.
문제는 그 원본을 구하기가 참으로 어렵다는 겁니다.


이 말씀을 드리는 이유는 제가 만만한 소설작가를 노리고..
이런 뜻이 아니라는 것인데요.
어쩌면 불행히도 대중작가는
그 글의 판매 때문에 그 글의 TEXT가 많이노출된 셈이지요.
대중적 인기가 주는 세금(?), 또는 그 비용 으로 생각하고 싶습니다. [*후략]



다시 찬별님의 문제제기로 돌아가서

1. 조환규 교수의 이번 발표는 문학에 대한 관심이 아니라 언론의 주목을 노린 것

조환규 교수가 의도했던 것이든 아니든 자신이 개발한 프로그램을 홍보하기 위해 언론을 이용한 건 굉장히 효과적이었다는 생각이 든다. 무엇보다 프로그램 개발 의도를 보면 지지하지 않을 수가 없다. 대학시절에 내가 가장 열심히 했던 건 연애질이었지만, 적어도 학점을 얻기 위해 과제물을 표절하거나 시험볼 때 부정행위를 했던 적은 없다는 점에서 자부심을 느끼는데, 학점도둑질은 나빠요! 이 프로그램 널리 이용되었으면 좋겠다. (참고: DEVAC 웹사이트)


2. 문장유사도를 분석하기 위해 사용한 텍스트 파일의 출처는 저작권법을 위반한 결과물이 아닌가?

초록불, 수룡 님 등 여러사람들이 지적했고 교수님도 인정했듯이, 불법 e-book은 문제. 활자책이든 이북이든 책을 샀든 안 샀든, 그 책의 내용을 디지털 파일로 추출하는 건 불법이다. 개인 소장용은 가능하다지만 이게 다른 사람들에게 배포되는 순간부턴 불법, 시각장애인용으로 점자책이나 오디오북을 만드는 목적일지라도 그 원문 텍스트가 배포든 유출이든 빠져나가면 불법. 그런데 지적재산권 행사의 제한(그러니까 불법이 아닌 복제)에 관한 법률에 이런 부분이 있더라. (6절 25조. 참고: 저작권 보호센터)

공표된 저작물은 보도·비평·교육·연구등을 위하여는 정당한 범위안에서 공정한 관행에 합치되게 이를 인용할 수 있다.

조환규 교수님의 경우는 정당한 범위 안에서 사용했다고 생각할 수 있지 않을까? 뭐 그거야 판사 맘이지만, 저작권법 위반으로 기소되기 전까지 문제 삼을 필요는 없을 듯.


+ 맑음뒤흐림 님이 덧글로 남겨주신 설명에 따르면

저작권법 제30조(사적이용을 위한 복제) 공표된 저작물을 영리를 목적으로 하지 아니하고 개인적으로 이용하거나 가정및 이에 준하는 한정된 범위 안에서 이용하는 경우에는 그 이용자는 이를 복제할 수 있다.

항목이 더 적합하다고. +ㅂ+ 우왕~ 의견 감사합니다!

by 작나무 | 2008/01/05 12:56 | 일상잡설 | 트랙백(1) | 덧글(6)
트랙백 주소 : http://treeart.egloos.com/tb/3563352
☞ 내 이글루에 이 글과 관련된 글 쓰기 (트랙백 보내기) [도움말]
Tracked from 나무그림 at 2008/01/05 17:58

제목 : 표절의 이유.
동거인과 문학작품의 표절에 대한 과학적 분석.에 관한 이야기를 하다가. &lt;경성애사&gt;의 작가는 &lt;태백산맥&gt;에서 문장을 따온 게 안 걸릴 거라고 생각했을까? (거의) 전 국민이 (거의) 다 읽은 그 책을 표절하고 들키지 않을 거라 믿었을까? 곰곰히 생각해봤는데 나는 이선미씨의 입장이 이해가 간다. 태백산맥을 읽으면서 근대기의 풍경이 막 머리속에 그려졌다, 이 시대를 배경으로 사랑이야기를 쓰고 싶은데, 써보니 그 시......more

Commented by 맑음뒤흐림 at 2008/01/05 15:19
2. 에서 인용은 [“정당한 범위 안에서의 인용”이란 그 표현형식상 자신의 저작물이 주가 되어야 하고 인용되는 저작물이 종의 관계가 되어야 한다. “공정한 관행에 합치되는 인용”이란 자신의 저작물이 인용되는 저작물과 명확히 구별될 수 있도록 신의성실의 원칙에 입각하여 합리적인 방식으로 인용하는 것을 말한다. 특히, 그 출처를 명시하여야 하고, 피인용 저작물을 지나치게 많이 인용해서는 안된다.]<저작권·저작인접권에 관한 기초지식>(문화관광부&저작권심의조정위원회) 제36번항목에서 발췌 / 이고 저는 대한민국저작권법 제30조(사적이용을 위한 복제) 공표된 저작물을 영리를 목적으로 하지 아니하고 개인적으로 이용하거나 가정 및 이에 준하는 한정된 범위 안에서 이용하는 경우에는 그 이용자는 이를 복제할 수 있다. / 에 해당된다고 생각합니다.
Commented by 작나무 at 2008/01/05 15:33
우왓! 그렇군요. (대체 나는 '인용'이 뭐라고 생각한 걸까 반성하고 있음다.)
덧글에 남겨주신 내용을 본문에 추가하도록 하겠습니다. ^^
Commented by 초록불 at 2008/01/08 10:08
교수님에 대한 제 포스팅은 본래 반쯤 농담 포스팅이었습니다. 진지하게 받아들이셨다면 죄송스럽네요.
Commented by 작나무 at 2008/01/08 14:54
초록불 님. 농반진반이라도 제기할만한 문제라고 생각하고 찬별님과 다른 분들도 같은 부분을 지적하셨으니 생각해볼 필요가 있었다고 봅니다.

환Q본전 읽다가 오나전 기절, 데구르르르 굴러다니고 있어요! 제 블로그에 일부 인용과 링크 걸겠습니다. (트랙백 보냈음다. ^^)
Commented by 초록불 at 2008/01/08 17:34
졸작을 평가해주셔서 감사드립니다.
Commented by 작나무 at 2008/01/09 00:49
겸손한 말씀!

:         :

:

비공개 덧글