Python อ่านไฟล์ pdf อ่านข้อความใน pdf บทความนี้สอนเขียนโค้ดอ่านตัวอักษร หรือข้อความในไฟล์ pdf ด้วย module tika ตัวอย่างอ่านข้อความในไฟล์ pdf ที่ต้องการ และแสดงผลลัพธ์สู่หน้าจอ สามารถเขียนโปรแกรมได้ดังนี้
ตัวอย่าง Python อ่านไฟล์ pdf อ่านข้อความใน pdf
1. ไฟล์ pdf ที่ใช้ทดสอบตามลิงก์ด้านล่าง
https://www.devdit.com/cdn/demo.pdf
2. ติดตั้ง module tika ด้วยคำสั่งดังนี้
pip install tika
3. เขียนโค้ดทดสอบ Python อ่านไฟล์ pdf
from tika import parser
data = parser.from_file('demo.pdf')
print( data['content'] )
ผลลัพธ์
Hello PDF
Python อ่านไฟล์ pdf อ่านข้อความใน pdf จากตัวอย่างเรียกใช้คำสั่ง parser จาก module tika และโหลดไฟล์ pdf ด้วยคำสั่ง from_file พร้อมกับกำหนดที่อยู่ และชื่อไฟล์ pdf ที่ต้องการดึงข้อมูล โดยเก็บผลลัพธ์ไว้ที่ตัวแปรชื่อ data จากนั้นใช้คำสั่ง print data['content'] เพื่อแสดงข้อมูลใน pdf ออกสู่หน้าจอ หมายเหตุ tika เขียนด้วยภาษา Java เครื่องที่รันโค้ดนี้ต้องติดตั้ง Java Runtime Environment (JRE)