Home

Home
Nắng thì cày ruộng, mưa thì đọc sách

07/03/2017

Số hóa tư liệu Việt: “Khuôn mặt khác” của một nền khoa học


Một bài báo cũ liên quan đến số hóa tư liệu, gắn với Trần Trọng Dương, trên Tia Sáng.


---

27/04/2015 08:22 -
Theo TS Trần Trọng Dương (Viện Nghiên cứu Hán Nôm), không chỉ về mặt học thuật mà cả về phương diện số hóa tư liệu, Việt Nam như một ốc đảo trong lòng thế giới
Với nhiều nước trên thế giới, việc xây dựng cơ sở dư liệu toàn văn (full-text database) và minh bạch hóa các nguồn tư liệu lịch sử, nhất là các kho lưu trữ mật quốc gia, không có gì mới. Đạo luật Tự do thông tin của Mỹ, Ireland, Israel, Úc, Anh đã yêu cầu chính phủ các nước này phải công khai các tài liệu nội các sau 20-30 năm. Ngay cả Nga, một nước từ chối tham gia vào tổ chức OGP (Open Government Partnership – Hiệp hội chính phủ mở, nhằm thúc đẩy minh bạch hóa thông tin và xã hội dân sự của các quốc gia),  thì đến năm 2013, nước này cũng công bố một trang web công khai nhiều tư liệu thời Xô - viết. Đó là kho tư liệu quý giá với những tài liệu về chiến tranh vệ quốc, về thời kỳ xã hội chủ nghĩa của Liên Xô dưới sự lãnh đạo của Stalin, cuộc chiến tranh chống tả khuynh, chống nhóm Bạch Vệ, những cải cách hợp tác xã...
Nhật Bản là một trong những quốc gia đầu tiên ở Đông Á tiến hành công nghệ số hóa sử liệu. Công việc này đã khởi động từ năm 1984 tại Trung tâm Biên soạn Sử liệu của Đại học Tokyo (Shiryohensanjo) với các cơ sở dữ liệu toàn văn của Văn thư thời Nara, Văn thư thời Heian, Văn thư thời Kamakura, Cổ ký lục, Cổ văn thư1. Từ năm 1990 đến 1998, Trung tâm Nghiên cứu Di sản Văn hóa Nara (Nabunken) được sự tài trợ của Chính phủ Nhật Bản đã xây dựng cơ sở dữ liệu mộc giản2 và liên tục cập nhật từ đó đến nay về nghiên cứu văn bản học và khảo cổ học. Đại học Meiji (Tokyo) đã và đang xây dựng cơ sở dữ liệu về “mặc thư thổ khí” (chữ viết bằng mực trên đồ gốm). Như vậy, Nhật Bản không chỉ số hóa và minh bạch hóa các nguồn sử liệu chữ viết bằng giấy, mộc bản, mà còn hướng đến các kho dữ liệu về các hiện vật khảo cổ học lịch sử (có chữ viết hay minh văn). Phong khí số hóa không chỉ trở thành phong trào trong các cơ quan nghiên cứu chuyên nghiệp mà còn lan rộng đến cả các tầng lớp bình dân, các cá nhân3.
Số hóa không chỉ dừng lại ở việc scan các tài liệu và đưa lên mạng. Trang Persee do Bộ Giáo dục, Cao học và Nghiên cứu của Pháp hiện nay có 500.000 nhóm tài liệu về khoa học xã hội và nhân văn (bao gồm 180.000 bài báo khoa học) và cho phép truy cập miễn phí. Mỗi năm, họ số hóa khoảng một triệu trang tài liệu. Những nhà nghiên cứu có thể tìm kiếm văn bản gốc được scan bằng các từ khóa tìm kiếm một cách dễ dàng nhờ phần mềm nhận diện văn tự. Với nguyên tắc khai thác về mặt sử liệu phải sử dụng những thông tin gốc bằng tiếng nguyên bản, những thư viện số như trên giúp cho những học giả tiếp cận với những thông tin chuẩn nhất, nguyên khối nhất trong thời gian ngắn nhất.
Để có thể tổ chức một cơ sở dữ liệu lớn khoảng hai-ba triệu trang scan tài liệu Hán Nôm và chuyển đổi chúng thành các trang có thể tìm kiếm được (searchable) mà không phải gõ lại toàn bộ văn bản, cần xây dựng công cụ nhận diện văn tự (text recognize) cho chữ Hán và chữ Nôm. Mấy năm gần đây, Trường Đại học Khoa học Công nghệ thuộc Đại học Quốc gia Hà Nội đã triển khai nghiên cứu chế tạo phần mềm nhận diện văn tự Nôm theo lý thuyết giả khung (dựa trên bố cục, khoảng trống trong chữ để nhận diện đó là chữ gì). Tuy nhiên phần mềm này vẫn chưa được hoàn thiện. Vì vậy cần có sự hợp tác chuyên môn giữa các chuyên gia công nghệ với các nhà nghiên cứu Hán Nôm.
Một ví dụ khác là dự án “Tứ khố toàn thư điện tử bản” (“Tứ khố toàn thư” là một bộ Tùng thư được biên soạn thời vua Càn Long với hơn 36.000 quyển với khoảng 800 triệu lượt chữ Hán về lịch sử, chính trị, văn hóa, nghệ thuật, tư tưởng, triết học, y học của Trung Quốc). Dự án này được đầu tư 6,5 triệu USD và triển khai bởi một công ty trách nhiệm hữu hạn của Trung Quốc – Digital Heritage Publishing. Đầu tiên, với sự hợp tác của các trường đại học, thư viện, viện nghiên cứu và trung tâm công nghệ, họ tiến hành chấm câu, hiệu điểm, chú thích… và phát triển phần mềm nhận diện văn tự, chuẩn hóa mã chữ Unicode, để đánh lại tác phẩm vào máy tính một cách nhanh nhất (trên thực tế, con người chỉ phải đánh lại 1-2% nội dung của bộ tác phẩm này). Giao diện của “Tứ khố toàn thư điện tử bản” hiển thị song song văn bản được hiệu điểm với văn bản gốc (giống y hệt nhau về cách dàn trang và vị trí các từ) để các học giả có thể đối chiếu, so sánh và góp ý sửa chữa, đồng thời vẫn đảm bảo đúng nguyên tắc trích dẫn từ tài liệu nguyên gốc. Dự án này được thực hiện với sự hợp tác của gần 400 giáo sư và 4.000 kỹ sư sao chép văn bản trong thời gian 18 năm. Việc số hóa toàn bộ kho thư tịch này với gần năm triệu trang sách tiết kiệm cho mỗi nhà nghiên cứu về lịch sử Trung Quốc hàng nghìn năm đọc sách. Với mỗi từ khóa tìm kiếm, kết quả được trả về sẽ cho biết: từ này xuất hiện ở quyển nào, trang bao nhiêu, dòng thứ mấy, bản nào, do ai dịch, hiệu điểm và chú thích. Dựa theo đó, người nghiên cứu sẽ lần giở đọc lại được toàn bộ quyển sách hoặc chỉ một đoạn văn có chứa chi tiết này4.
Việt Nam đang trở thành ốc đảo
Ở Việt Nam, công đoạn số hóa chủ yếu ở mức độ scan các thư tịch cổ và công khai trên mạng. Đây mới chỉ là mức độ thứ nhất trong công tác số hóa để lưu giữ ở các thư viện, kho lưu trữ có ý nghĩa chủ yếu là bảo tồn hiện vật, bảo tồn, nhân bản văn bản. Tuy nhiên, văn bản scan này chưa phải là bản phổ dụng vì bản khắc có thể khắc sai chữ, sai địa danh, nhân danh và những lỗi khác của người viết sử. Chúng ta vẫn chưa làm được công tác số hóa ở mức thứ hai. Đó là tổ chức các chuyên gia chấm câu (các văn bản Hán Nôm thường không có chấm câu), chú giải, hiệu điểm và dịch thuật và sau khi in thành sách thì chuyển sang giai đoạn số hóa, tích hợp với các công cụ tìm kiếm và nhận diện văn tự giống như “Tứ khố toàn thư điện tử bản” đã nói ở trên, hoặc sử dụng công nghệ nhận diện  ký tự (OCR).  
Cơ sở dữ liệu số hóa kho cổ tịch Hán Nôm của Thư viện Quốc gia là kho số hóa công khai đầu tiên ở nước ta. Tuy nhiên, kho này mới chỉ công bố các ảnh nguyên bản, chưa cho phép tra cứu toàn văn, chưa số hóa thành văn bản số. Trong khi, một số ít nhà nghiên cứu quan tâm chỉ có thể đọc lật từng trang trên mạng (do hạn chế về bản quyền), thì các hacker Trung Quốc và Việt Nam đã  bẻ khóa và phát tán trên toàn cầu. Đây là một thực trạng khác của việc quản lý, sử dụng các cơ sở dữ liệu ở Việt Nam.
Ngoài ra, Viện nghiên cứu Hán Nôm với kho sách Hán Nôm chứa khoảng hai - ba triệu trang sách cũng đang thực hiện công tác số hóa hằng năm nhưng chưa có cơ chế nào để đưa vào sử dụng. Không chỉ các học giả nghiên cứu Hán Nôm, mà ngay các cán bộ viện cũng chưa được tiếp cận và sử dụng kho tư liệu đã được scan.Công tác số hóa thư tịch cổ của Việt Nam là một quá trình gian nan vì hai lí do: Thứ nhất, nước ta chưa có chủ trương minh bạch hóa các tài liệu cổ về địa lý, lịch sử. Thứ hai, công tác làm tư liệu vẫn bị coi nhẹ. Đa số vẫn làm tư liệu theo cách tập hợp các kỷ yếu hội thảo của các nhà khoa học về một vấn đề nào đó dựa trên một vài tài liệu gốc sưu tập được. Tập kỷ yếu có thể dài hàng trăm trang nhưng thực chất chỉ là “xào xáo” từ số tài liệu ít ỏi kia. Như vậy, chúng ta không coi việc làm cơ sở dữ liệu là làm khoa học mà chỉ đề cao việc viết bình tán, cảm thán văn chương và cảm hứng lịch sử. Trong khi đó, xây dựng cơ sở dữ liệu với hàng ngàn tư liệu (cả văn bản gốc và văn bản được dịch, hiệu điểm, chú thích) được số hóa kết hợp các công cụ tìm kiếm để phục vụ nghiên cứu có giá trị hơn rất nhiều so với việc tổ chức những hội thảo kiểu như trên.
Chính vì thế mà trong bối cảnh số hóa tư liệu trên thế giới, Việt Nam trở thành một ốc đảo không những về mặt tư liệu mà cả về mặt học thuật. Trong khi các nước khác đã xử lý xong phần lớn kho tư liệu, áp dụng những phương pháp luận hiện đại trong nghiên cứu thì Việt Nam vẫn loay hoay chưa xong việc làm tư liệu và người nghiên cứu như những con ong thợ tự lọ mọ đến từng thư viện, nhặt nhạnh từng tư liệu. Các nhà khoa học cứ như “thầy bói xem voi” đi trong khu rừng nguyên sinh đã qua nhiều lần tàn phá; họ nhặt được một vài cái lá liền đi mô tả cái rừng, không mấy ai thử thống kê xem toàn bộ khu rừng có những cái gì. Mặc dù không ít người đã và đang động viên/ vận động cho số hóa nhưng nhiều cơ quan học thuật không coi công việc này là một thao tác quan trọng trước nhất của một nền học thuật.       
Hảo Linh ghi
Bên cạnh số hóa các tư liệu, các nước trên thế giới còn thực hiện số hóa các thành quả nghiên cứu. Đó là tri thức nền tảng cho một xã hội học thuật.  Ví dụ như trang thư viện số Jstor của Mỹ (được thành lập bởi giáo sư William G. Bowen, cựu Giám đốc Đại học Princeton từ năm 1972-1988). Họ số hóa và lưu giữ các số của khoảng 1.900 tạp chí khoa học từ thế kỷ 18 đến nay với sự cho phép của 900 nhà xuất bản trên thế giới. Các nhà nghiên cứu trên khắp thế giới có thể tìm kiếm tất cả các tài liệu liên quan đến vấn đề mình nghiên cứu bằng các từ khóa. Ở Trung Quốc trang CNKI, số hóa toàn bộ các luận văn từ thạc sĩ đến tiến sĩ, các đề tài nghiên cứu từ cấp cơ sở đến cấp nhà nước, tất cả các bài báo từ tạp chí phổ thông đến tạp chí chuyên ngành. Việc lập ra các trang tư liệu như vậy vừa có tác dụng để bán tài liệu, vừa có thể quản lí khoa học.  Về phương diện quản lí khoa học, họ không chỉ lọc được những đề tài trùng tên mà còn có thể kiểm soát mức độ trùng nội dung của mỗi đề tài. Với những đề tài kế thừa nội dung khoảng 30%, nhờ các thư viện số này, hội đồng nghiệm thu cũng dễ dàng so sánh, đối chiếu với đề tài trước đó. Hiện tại ở Việt Nam, Thư viện Quốc gia cũng số hóa một số tạp chí nhưng chưa có hệ thống, tất cả mới chỉ là manh nha, làm thử. Với những chương trình như vậy, nước ta cần sự chỉ đạo từ trên xuống: Nhà nước tài trợ ngân sách và yêu cầu tất cả các cơ quan nghiên cứu, cơ quan báo chí, các đại học, các ban ngành sở thống kê toàn bộ các tạp chí, kỷ yếu, sách vở, báo chí đã xuất bản. Sau khi có được cơ sở dữ liệu đầy đủ với số lượng tài liệu thì nhà nước sẽ tài trợ kinh phí cho từng viện trực thuộc, scan toàn bộ tài liệu và tải lên một trang quản lí. Nhờ đó, không chỉ các nhà quản lí mà những người nghiên cứu có thể tránh được những đề tài trùng lặp. 
Hảo Linh  ghi
Chú thích:
1. Địa chỉ: http://www.hi.u-tokyo.ac.jp/index-j.html
2. Địa chỉ: http://www.nabunken.go.jp/Open/mokkan/ mokkan.html
3. Phạm Lê Huy. Hướng đến xây dựng cơ sở dữ liệu toàn văn tư liệu chữ viết Việt Nam. Trong “Sử học Việt Nam trong bối cảnh hội nhập và toàn cầu hóa”. NXB Thế giới. 2012.
4. Xem thêm: Ngô Thế Long, Bộ tứ khố toàn thư của Trung Quốc xuất bản trên đĩa quang (CD-ROM). Tạp chí Hán Nôm, số 2, 1999. Bản online: http://hannom.org.vn/web/tchn/data/9902.htm; Nguyễn Nam. Khai thác tư liệu về Việt Nam qua Văn Uyên các Tứ khố toàn thư điện tử bản, Tạp chí Hán Nôm, số 2, 2001. Bản online: http://hannom.org.vn/web/tchn/data/0102.htm
 http://tiasang.com.vn/-quan-ly-khoa-hoc/so-hoa-tu-lieu-viet-khuon-mat-khac-cua-mot-nen-khoa-hoc-8595

Không có nhận xét nào:

Đăng nhận xét

Khi sử dụng tiếng Việt, bạn cần viết tiếng Việt có dấu, ngôn từ dung dị mà lại không dung tục. Có thể đồng ý hay không đồng ý, nhưng hãy đưa chứng lí và cảm tưởng thực sự của bạn.

LƯU Ý: Blog đặt ở chế độ mở, không kiểm duyệt bình luận. Nếu nhỡ tay, cũng có thể tự xóa để viết lại. Nhưng những bình luận cảm tính, lạc đề, trái thuần phong mĩ tục, thì sẽ bị loại khỏi blog và ghi nhớ spam ở cuối trang.

Ghi chú (tháng 11/2016): Từ tháng 6 đến tháng 11/2016, hàng ngày có rất nhiều comment rác quảng cáo (bán hàng, rao vặt). Nên từ ngày 09/11/2016, có lúc blog sẽ đặt chế độ kiểm duyệt, để tự động loại bỏ rác.