Home

Home
Nắng thì cày ruộng, mưa thì đọc sách 晴耕雨讀

21/10/2023

Số hóa để phát huy giá trị di sản Hán Nôm - chương trình thác bản văn bia của Brian Wu

Bạn Brian Wu - một Việt kiều (đúng hơn là người Việt gốc Hoa) đang ở Mĩ - mình chưa từng gặp, chưa từng liên lạc, nhưng có để ý đến các việc làm của bạn ấy liên quan đến học thuật Việt Nam mà đặc biệt là mảng Hán Nôm (có thể đọc lại ở đây hay ở đây).

Những năm gần đây, thấy bạn ấy đã xây dựng gia đình với một "cô gái Hán Nôm" (cách gọi của bạn ấy).

Cũng những năm gần đây, thấy bạn ấp ủ và thực hiện dần một chương trình số hóa để phát huy giá trị di sản Hán Nôm. Đáng kể sắp tới là số hóa thác bản văn bia (dựa trên các bộ biên mục và ấn ảnh thác bản văn bia đã xuất bản).

Lấy bài đầu tiên là bài mà Brian Wu vừa đưa lên Fb cá nhân hôm nay. Giao Blog sẽ cập nhật dần kết quả của chương trình số hóa thác bản văn bia Hán Nôm của bạn Brian Wu.

Tháng 10 năm 2023,

Giao Blog



---


Ngày 21/10/2023

Như mình đã nêu ra vài ngày trước đây >> https://www.facebook.com/brian.wu.121772/posts/3400963853487886, trang mạng + ứng dụng di động Vietdocs.org sẽ được cho ra mắt với phiên bản POC (Proof-of-Concept) vào khoảng cuối năm sau (năm 2024), với module Thác Bản sẽ là module thử nghiệm đầu tiên.
Hổm rày, có các bạn hỏi trong inbox / emails về dự án Vietdocs này. Người thì hỏi điều này, người thì hỏi điều nọ, tựu chung ai cũng đều vui và rất mong được thấy dự án này ra đời.
Có một câu hỏi mà mình thấy rất thú vị - đó là một vài bạn hỏi mình có thể nào xem xét việc cho ra MIỄN PHÍ dữ liệu số hoá THÁC BẢN đã được tách (parsed) thành từng mục riêng trước khi dự án Vietdocs phiên bản POC hoàn thành được không ? Tức là mình nghĩ có thể hiện giờ, các bạn cũng đều muốn tự mình tạo mạng hay ứng dụng di động, hay muốn tự nghiên cứu sâu thêm về chủ đề THÁC BẢN, mà không cần phải dựa vào việc dùng các ứng dụng Vietdocs ĐỘC QUYỀN nắm giữ dữ liệu, đúng không ?
Câu hỏi này mình rất là thích - và mình nghĩ càng nhiều người quan tâm đến dữ liệu Thác Bản thì càng tốt chứ. Nên yes, vậy có khi, vào tháng 4 hay tháng 5 năm 2024 hay trước đó chút xíu, mình cho ra luôn các dữ liệu số hoá tách (parsed data), để khỏi ai phải đợi, rồi sau đó mình sẽ tiếp tục để hoàn thành phiên bản Vietdocs POC vào cuối năm 2024 như đã định vậy. Bạn thấy OK không ?
Có bạn hỏi - ồ, viết lập trình mà không có dữ liệu thì làm sao viết ? Thật ra, nếu bạn trong nghề lập trình chắc bạn biết là khi khởi đầu dự án lập trình, các lập trình viên không cần dữ liệu nào cả. Họ chỉ cần hiểu rõ phần data structure (cấu trúc dữ liệu) rồi sau đó thì dùng các data generators như json generators (ví dụ như mạng https://www.mockaroo.com/) để tạo ra vài hàng hay vài triệu hàng dữ liệu để mà dùng thoải mái. Rồi sau đó, khi thử data input / output, thì lúc đó sẽ chỉnh sửa chút xíu phần data filters / ETL processes, và vậy là xong, chứ không có lập trình viên nào phải ngồi đợi cho tới khi người ta đưa dữ liệu ra để viết lập trình cả.
Nhưng để thoả mãn tánh tò mò là dữ liệu Thác Bản trong các tập tin số hoá Thư Mục Thác Bản đã được nhóm Kể Sử Làng chịu khó số hoá có dễ dàng để tách (parse) thành từng mục hay không (ví dụ Số Thứ Tự, Tên, Tên Hán Nôm, Tóm Tắt, Người Soạn, v.v & v.v), mình chịu khó thử viết một dự án lập trình nho nhỏ tách thử Tập 1 Thư Mục Thác Bản. Kết quả là xin thưa vơi bạn, việc tách dữ liệu từ tập tin số hoá Thác Bản PDF thành từng phân mục là khả thi và khá là dễ. Mà ví dụ chính là tập tin JSON kèm theo sau đây và trong hình của status này.
Điều mất thời gian nhất kế tiếp sẽ là phần cập nhật lại các chữ mà khi tách ra, đã bị sai đi, ví dụ "Ông" có thể đã được tách ra thành "Ồng" (ông + dấu huyền) chẳng hạn. Đây không phải là lỗi của lập trình tách dữ liệu, mà chính là đến từ lỗi OCR trong chương trình Abby FineReader v15 OCR, tức là chương trình mà các bạn nhóm Kể Sử Làng đã dùng để OCR bộ Thư Mục Thác Bản vậy.
Ví dụ bạn có thể tải Tập 1 Thư Mục, vào trang 37, Kí Hiệu 1, và copy phần Tóm lược nội dung "Ông bà đã cúng 40 quan tiền xanh" vào Word hay đâu đó, thì chắc bạn sẽ thấy là chữ Ông lại được OCR thành "Ồng" (ông + dấu huyền) chẳng hạn.
Do vậy, có lẽ thời gian dùng để tách dữ liệu Thác Bản với 11 tập Thư Mục thì không lâu đâu, nhưng thời gian để viết luôn thêm bộ lọc để chỉnh sửa luôn các chữ đã bị OCR sai thì không thể ngắn được. Có thể bạn nói, hay là để tụi này giúp luôn việc cập nhật lại chữ cho mau. Nhưng thật ra, mình muốn tự làm trước là vì muốn tạo ra luôn một bộ filter này, để có gì sau này mà tách thêm các dữ liệu khác về Thác Bản, ví dụ tách dữ liệu trong sách Chợ truyền thống Việt Nam qua tư liệu Văn Bia thì cũng có thể có sẵn bộ filter này vậy. Biết đâu sau này, mình có thể tặng luôn MIỄN PHÍ phần filter nho nhỏ này cho Abby FineReader, để giúp cho công cuộc OCR tiếng Việt hoàn chỉnh hơn, và như thế là, giúp luôn hết cho tất cả các bạn lẫn những ai đó muốn có được một bản OCR tiếng Việt mới hoàn thiện và chuẩn xác hơn. Bạn thấy như vậy có là hay không ? Nên để mình cứ viết filter này trước khi năn nỉ các bạn giúp mình cập nhật nha.
Bạn có thể thấy rõ là dữ liệu tách (parsed data) phần Tập 1 Thư Mục đọc lên thấy rất đã. Dữ liệu JSON như vầy, chúng ta có thể chuyển sang dạng Excel cho các nhà nghiên cứu nào mà thường dùng Excel, có thể dùng cho SQL databases hay NoSQL databases (ví dụ MongoDB). Dữ liệu JSON như vậy, bạn có thể convert to Realm objects để dùng cho các ứng dụng di động React Native dạng offline dễ dàng.
Và bạn lưu ý là phần dữ liệu tách thử nghiệm này, chỉ là phần thử nghiệm (experimental) thôi nha, chưa phải là bản final version mà mình dự định cho ra vào tháng 4 hay tháng 5 năm sau đâu. Phần final version sẽ bao gồm cả các phân mục đơn vị hành chính rõ ràng, ví dụ các phân mục thôn, xã, tổng, huyện, phủ, tỉnh cùng với các tên địa điểm chẳng hạn. Với một dữ liệu tách đầy đủ như vậy, các bạn có thể không cần phải lo về phần dữ liệu nữa, mà tập trung vào chuyên môn của bạn, ví dụ tạo ra các ứng dụng mạng + di động, hoặc nghiên cứu sâu thêm về Thác Bản. Và dĩ nhiên dữ liệu tách số hoá Thác Bản này sẽ HOÀN TOÀN MIỄN PHÍ đến với mọi người.
Bạn cũng để ý thêm chút xíu nha - đó là qua việc tách dữ liệu Tập 1 Thư Mục này, mình phát hiện ra là Tập 1 có 1 ngàn 322 đơn vị Số Thứ Tự (stt), mà mỗi đơn vị STT có thể có một Kí Hiệu (ví dụ đơn vị stt 1 với Kí Hiệu 1) hoặc nhiều Kí Hiệu (ví dụ đơn vị stt 2 với Kí Hiệu 2/3). Như vậy thì đại khái, có phải là nếu một Tập Thư Mục khoảng 1 ngàn 400 Đơn Vị, thì 11 Tập Thư Mục sẽ có nhiều nhất khoảng 16 ngàn đơn vị hay ít nhất là có khi chỉ khoảng 10 ngàn đơn vị thôi, chứ không hẳn là có 20 ngàn đơn vị đâu đúng không ?
Có khi dự án Thác Bản này mà thành công, chúng ta sẽ tự tạo ra một app du lịch Thác Bản xuyên suốt Việt Nam, để dân mê đi phượt độc lập có thể đi đến và xem từng địa điểm mà còn sót lại Thác Bản cho sướng bạn há ? Tại sao chúng ta lại không thể cổ võ cho mọi người check-in từng địa điểm Thác Bản nhỉ ?
Bạn tải bộ Tổng Tập + Thư Mục Thác Bản số hoá do nhóm Kể Sử Làng làm tại đây >> https://www.facebook.com/brian.wu.121772/posts/3294121144172158
Bạn tải tập tin JSON tách dữ liệu thử nghiệm Thác Bản Thư Mục Tập 1 tại đây >> https://drive.google.com/.../1f1Gr.../view...
Để xem JSON file, bạn có thể tải tập tin JSON lên dịch vụ miễn phí này >> https://xml-json.kwebpia.net/ hoặc dịch vụ miễn phí này >> https://jsonformatter.org/
Thanks
"Mèo Cà Ri" Brian




https://www.facebook.com/brian.wu.121772/posts/pfbid0g4NJGmpVQCLcqLY8LbFMH3JAn2H6npHRxK3vXcRBqvwz45LnkGc5Hj73WoPdNdmjl

..




CẬP NHẬT


1. Tống Hanh (21/10/2023)

Vậy là trước khi hoàn thành dự án lớn "Vietdocs" của mình, nhà nghiên cứu, chuyên gia IT Brian Wu đã bắt tay vào soạn công cụ tách dữ liệu từ bản PDF của "Thư mục văn khắc Hán Nôm Việt nam".
Kết quả chạy thử với tập 1 của "Thư mục" đã được tác giả công bố dưới dạng file JSON, link trong post dưới đây.
Như vậy, cùng với "Chốn Thiêng" của Trần Thoan và đối với đa số mọi người có khả năng "xào xáo" dữ liệu thì việc chờ đợi một cuốn index (chỉ mục) cho bộ tài liệu trên, trong tương lai, sẽ không còn quan trọng nữa.
Tiện tác giả nhắc tới các lỗi trong quá trình OCR bộ tài liệu bằng công cụ ABBY, lại phải một lần nữa nhắc lại công đầu của các cụ Tuaans LeeLê Xuân Lộc đã thực hiện OCR với khối lượng lớn và cực kỳ nhanh gọn dạo xưa.

https://www.facebook.com/groups/623669691496437/posts/1278505809346152/

..

Không có nhận xét nào:

Đăng nhận xét

Khi sử dụng tiếng Việt, bạn cần viết tiếng Việt có dấu, ngôn từ dung dị mà lại không dung tục. Có thể đồng ý hay không đồng ý, nhưng hãy đưa chứng lí và cảm tưởng thực sự của bạn.

LƯU Ý: Blog đặt ở chế độ mở, không kiểm duyệt bình luận. Nếu nhỡ tay, cũng có thể tự xóa để viết lại. Nhưng những bình luận cảm tính, lạc đề, trái thuần phong mĩ tục, thì sẽ bị loại khỏi blog và ghi nhớ spam ở cuối trang.

Ghi chú (tháng 11/2016): Từ tháng 6 đến tháng 11/2016, hàng ngày có rất nhiều comment rác quảng cáo (bán hàng, rao vặt). Nên từ ngày 09/11/2016, có lúc blog sẽ đặt chế độ kiểm duyệt, để tự động loại bỏ rác.