Devdit
 

Python อ่านไฟล์ pdf อ่านข้อความใน pdf

2.3K

Python อ่านไฟล์ pdf อ่านข้อความใน pdf บทความนี้สอนเขียนโค้ดอ่านตัวอักษร หรือข้อความในไฟล์ pdf ด้วย module tika ตัวอย่างอ่านข้อความในไฟล์ pdf ที่ต้องการ และแสดงผลลัพธ์สู่หน้าจอ สามารถเขียนโปรแกรมได้ดังนี้

 

ตัวอย่าง Python อ่านไฟล์ pdf อ่านข้อความใน pdf

1. ไฟล์ pdf ที่ใช้ทดสอบตามลิงก์ด้านล่าง

https://www.devdit.com/cdn/demo.pdf

 

2. ติดตั้ง module tika ด้วยคำสั่งดังนี้

pip install tika

3. เขียนโค้ดทดสอบ Python อ่านไฟล์ pdf

from tika import parser 

data = parser.from_file('demo.pdf')
print( data['content'] )

ผลลัพธ์

Hello PDF

คำอธิบาย

Python อ่านไฟล์ pdf อ่านข้อความใน pdf จากตัวอย่างเรียกใช้คำสั่ง parser จาก module tika และโหลดไฟล์ pdf ด้วยคำสั่ง from_file พร้อมกับกำหนดที่อยู่ และชื่อไฟล์ pdf ที่ต้องการดึงข้อมูล โดยเก็บผลลัพธ์ไว้ที่ตัวแปรชื่อ data จากนั้นใช้คำสั่ง print data['content'] เพื่อแสดงข้อมูลใน pdf ออกสู่หน้าจอ หมายเหตุ tika เขียนด้วยภาษา Java เครื่องที่รันโค้ดนี้ต้องติดตั้ง Java Runtime Environment (JRE)

แก้ไข 2 ปีที่แล้ว
ชอบ
ลิ้งก์
แชร์
Devdit มีช่อง YouTube แล้ว
เราสร้างวิดีโอเกี่ยวกับเทคโนโลยี ทำตามง่ายๆ